python获取豆瓣电影简介代码分享

代码如下:

#!/usr/bin/env python
#coding:utf-8
import re,sys
import urllib
from bs4 import BeautifulSoup
global r_url

def hq_url():
    so_url = "http://movie.douban.com/subject_search?search_text="
    data = urllib.urlopen(so_url+gjz).read()
    r = re.findall(r'<a class="nbg" href=(.*?) onclick',data)
    r_url = re.sub('"','',r[0])
    ymdata = urllib.urlopen(r_url).read()
    soup = BeautifulSoup(ymdata)
    wz = soup('span',{'property':'v:summary'})
    title = re.findall(r'name="title" value="(.*?)"',ymdata)
    zy = re.findall(r'name="desc" value="(.*?)"',ymdata)
    imdb = re.findall(r':</span> <a href="(.*?)" target=',ymdata)

shijian = re.findall(r'<span property="v:runtime" content="109">(.*?)</span>',ymdata)
    print u"IMDB电影网链接"
    print imdb
    print u"豆瓣电影链接"
    print  r_url
    print '*'*70
    print title[0]
 print zy[0]
    print "电影简介"
    print '*'*70
    print wz
if __name__=='__main__':
    gjz=raw_input("请输入电影名:  ").strip()
    hq_url()

(0)

相关推荐

  • 编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

    抓取豆瓣电影TOP100 一.分析豆瓣top页面,构建程序结构 1.首先打开网页http://movie.douban.com/top250?start,也就是top页面 然后试着点击到top100的页面,注意带top100的链接依次为 http://movie.douban.com/top250?start=0 http://movie.douban.com/top250?start=25 http://movie.douban.com/top250?start=50 http://movie

  • python登录豆瓣并发帖的方法

    本文实例讲述了python登录豆瓣并发帖的方法.分享给大家供大家参考.具体如下: 这里涉及urllib.urllib2及cookielib常用方法的使用 登录豆瓣,由于有验证码,采取的办法是将验证码图片下载到同目录下,查看图片后输入验证码即可登录.发帖 帖子内容写死在代码中了 # -- coding:gbk -- import sys, time, os, re import urllib, urllib2, cookielib loginurl = 'https://www.douban.co

  • python抓取豆瓣图片并自动保存示例学习

    环境Python 2.7.6,BS4,在powershell或命令行均可运行.请确保安装了BS模块 复制代码 代码如下: # -*- coding:utf8 -*-# 2013.12.36 19:41 wnlo-c209# 抓取dbmei.com的图片. from bs4 import BeautifulSoupimport os, sys, urllib2 # 创建文件夹,昨天刚学会path = os.getcwd()          # 获取此脚本所在目录new_path = os.pat

  • python正则匹配抓取豆瓣电影链接和评论代码分享

    复制代码 代码如下: import urllib.requestimport reimport time def movie(movieTag): tagUrl=urllib.request.urlopen(url)    tagUrl_read = tagUrl.read().decode('utf-8')    return tagUrl_read def subject(tagUrl_read): '''         这里还存在问题:        ①这只针对单独的一页进行排序,而没有

  • Python实现豆瓣图片下载的方法

    本文实例讲述了Python实现豆瓣图片下载的方法.分享给大家供大家参考.具体分析如下: 1 用 tk 封装一下 2 用户可以自己输入图片url download_douban_album # -*-coding:UTF-8 -*- import re import urllib def count_percent(a, b, c): per = 100.0 * a * b / c if per > 100: per = 100 print '%.2f%%' % per def get_url()

  • python使用urllib模块开发的多线程豆瓣小站mp3下载器

    复制代码 代码如下: #! /usr/bin/python2.7# -- coding:utf-8 -- import os, urllib,urllib2, thread,threadingimport re #匹配音乐urlreg=re.compile('{"name":"(.+?)".+?"rawUrl":"(.+?)",.+?}', re.I) class downloader(threading.Thread):  

  • python获取豆瓣电影简介代码分享

    复制代码 代码如下: #!/usr/bin/env python#coding:utf-8import re,sysimport urllibfrom bs4 import BeautifulSoupglobal r_url def hq_url():    so_url = "http://movie.douban.com/subject_search?search_text="    data = urllib.urlopen(so_url+gjz).read()    r = r

  • Scrapy抓取京东商品、豆瓣电影及代码分享

    1.scrapy基本了解 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘, 信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取(更确切来说,网络抓取)所设计的,也可以应用在获取API所返回的数据(比如Web Services)或者通用的网络爬虫. Scrapy也能帮你实现高阶的爬虫框架,比如爬取时的网站认证.内容的分析处理.重复抓取.分布式爬取等等很复杂的事. Scrapy主要包括了以下组件: 引擎(Scrapy): 用来处理整个系统的数据流

  • Python爬豆瓣电影实例

    文件结构 html_downloader.py - 下载网页html内容 #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2 class HtmlDownloader(object): def downlod(self, url): if url is None: return None response = urllib2.urlopen(url) if response.getcode() != 200: return None

  • python获取代理IP的实例分享

    平时当我们需要爬取一些我们需要的数据时,总是有些网站禁止同一IP重复访问,这时候我们就应该使用代理IP,每次访问前伪装自己,让"敌人"无法察觉. oooooooooooooooOK,让我们愉快的开始吧! 这个是获取代理ip的文件,我将它们模块化,分为三个函数 注:文中会有些英文注释,是为了写代码方便,毕竟英文一两个单词就ok了 #!/usr/bin/python #-*- coding:utf-8 -*- """ author:dasuda "&

  • Python关于反射的实例代码分享

    反射 在Python中,能够通过一个对象,找出type.class.attribute或者method的能力,成为反射. 函数与方法 内建函数: getattr(object,name[,degault]) 通过name返回object的属性值,当属性不存在,将使用default返回,如果没有default,则抛出AttributeError.Name必须为字符串. setattr(object,name,value) object的属性存在,则覆盖,不存在,新增. hasattr(object

  • Python封装zabbix-get接口的代码分享

    Zabbix 是一款强大的开源网管监控工具,该工具的客户端与服务端是分开的,我们可以直接使用自带的zabbix_get命令来实现拉取客户端上的各种数据,在本地组装参数并使用Popen开子线程执行该命令,即可实现批量监测. 封装Engine类: 该类的主要封装了Zabbix接口的调用,包括最基本的参数收集. import subprocess,datetime,time,math class Engine(): def __init__(self,address,port): self.addre

  • Python验证文件是否可读写代码分享

    本文分享实例代码主要在实现验证文件是否有读写权限问题,具体如下: # Import python libs import os def is_writeable(path, check_parent=False): ''' Check if a given path is writeable by the current user. :param path: The path to check :param check_parent: If the path to check does not

  • Python爬虫——爬取豆瓣电影Top250代码实例

    利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中.基本上爬取结果还是挺好的.具体代码如下: #!/usr/bin/python #-*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf8') from bs4 import BeautifulSoup imp

  • Python爬虫获取豆瓣电影并写入excel

    豆瓣电影排行榜前250 分为10页,第一页的url为https://movie.douban.com/top250,但实际上应该是https://movie.douban.com/top250?start=0 后面的参数0表示从第几个开始,如0表示从第一(肖申克的救赎)到第二十五(触不可及),https://movie.douban.com/top250?start=25表示从第二十六(蝙蝠侠:黑暗骑士)到第五十名(死亡诗社).等等, 所以可以用一个步长为25的range的for循环参数 复制代

  • 利用python获取Ping结果示例代码

    前言 本文主要跟大家分享了关于利用python获取Ping结果的相关内容,分享出来供大家参考学习,下面话不多说,来一起看看详细的介绍吧. 示例代码: # -*- coding: utf-8 -*- import subprocess import re def get_ping_result(ip_address): p = subprocess.Popen(["ping.exe", ip_address], stdin = subprocess.PIPE, stdout = subp

随机推荐