python获取豆瓣电影简介代码分享
#!/usr/bin/env python
#coding:utf-8
import re,sys
import urllib
from bs4 import BeautifulSoup
global r_url
def hq_url():
so_url = "http://movie.douban.com/subject_search?search_text="
data = urllib.urlopen(so_url+gjz).read()
r = re.findall(r'<a class="nbg" href=(.*?) onclick',data)
r_url = re.sub('"','',r[0])
ymdata = urllib.urlopen(r_url).read()
soup = BeautifulSoup(ymdata)
wz = soup('span',{'property':'v:summary'})
title = re.findall(r'name="title" value="(.*?)"',ymdata)
zy = re.findall(r'name="desc" value="(.*?)"',ymdata)
imdb = re.findall(r':</span> <a href="(.*?)" target=',ymdata)
shijian = re.findall(r'<span property="v:runtime" content="109">(.*?)</span>',ymdata)
print u"IMDB电影网链接"
print imdb
print u"豆瓣电影链接"
print r_url
print '*'*70
print title[0]
print zy[0]
print "电影简介"
print '*'*70
print wz
if __name__=='__main__':
gjz=raw_input("请输入电影名: ").strip()
hq_url()
相关推荐
-
编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法
抓取豆瓣电影TOP100 一.分析豆瓣top页面,构建程序结构 1.首先打开网页http://movie.douban.com/top250?start,也就是top页面 然后试着点击到top100的页面,注意带top100的链接依次为 http://movie.douban.com/top250?start=0 http://movie.douban.com/top250?start=25 http://movie.douban.com/top250?start=50 http://movie
-
python登录豆瓣并发帖的方法
本文实例讲述了python登录豆瓣并发帖的方法.分享给大家供大家参考.具体如下: 这里涉及urllib.urllib2及cookielib常用方法的使用 登录豆瓣,由于有验证码,采取的办法是将验证码图片下载到同目录下,查看图片后输入验证码即可登录.发帖 帖子内容写死在代码中了 # -- coding:gbk -- import sys, time, os, re import urllib, urllib2, cookielib loginurl = 'https://www.douban.co
-
Python实现豆瓣图片下载的方法
本文实例讲述了Python实现豆瓣图片下载的方法.分享给大家供大家参考.具体分析如下: 1 用 tk 封装一下 2 用户可以自己输入图片url download_douban_album # -*-coding:UTF-8 -*- import re import urllib def count_percent(a, b, c): per = 100.0 * a * b / c if per > 100: per = 100 print '%.2f%%' % per def get_url()
-
python抓取豆瓣图片并自动保存示例学习
环境Python 2.7.6,BS4,在powershell或命令行均可运行.请确保安装了BS模块 复制代码 代码如下: # -*- coding:utf8 -*-# 2013.12.36 19:41 wnlo-c209# 抓取dbmei.com的图片. from bs4 import BeautifulSoupimport os, sys, urllib2 # 创建文件夹,昨天刚学会path = os.getcwd() # 获取此脚本所在目录new_path = os.pat
-
python使用urllib模块开发的多线程豆瓣小站mp3下载器
复制代码 代码如下: #! /usr/bin/python2.7# -- coding:utf-8 -- import os, urllib,urllib2, thread,threadingimport re #匹配音乐urlreg=re.compile('{"name":"(.+?)".+?"rawUrl":"(.+?)",.+?}', re.I) class downloader(threading.Thread):
-
python正则匹配抓取豆瓣电影链接和评论代码分享
复制代码 代码如下: import urllib.requestimport reimport time def movie(movieTag): tagUrl=urllib.request.urlopen(url) tagUrl_read = tagUrl.read().decode('utf-8') return tagUrl_read def subject(tagUrl_read): ''' 这里还存在问题: ①这只针对单独的一页进行排序,而没有
-
python获取豆瓣电影简介代码分享
复制代码 代码如下: #!/usr/bin/env python#coding:utf-8import re,sysimport urllibfrom bs4 import BeautifulSoupglobal r_url def hq_url(): so_url = "http://movie.douban.com/subject_search?search_text=" data = urllib.urlopen(so_url+gjz).read() r = r
-
Scrapy抓取京东商品、豆瓣电影及代码分享
1.scrapy基本了解 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘, 信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取(更确切来说,网络抓取)所设计的,也可以应用在获取API所返回的数据(比如Web Services)或者通用的网络爬虫. Scrapy也能帮你实现高阶的爬虫框架,比如爬取时的网站认证.内容的分析处理.重复抓取.分布式爬取等等很复杂的事. Scrapy主要包括了以下组件: 引擎(Scrapy): 用来处理整个系统的数据流
-
Python爬豆瓣电影实例
文件结构 html_downloader.py - 下载网页html内容 #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2 class HtmlDownloader(object): def downlod(self, url): if url is None: return None response = urllib2.urlopen(url) if response.getcode() != 200: return None
-
python获取代理IP的实例分享
平时当我们需要爬取一些我们需要的数据时,总是有些网站禁止同一IP重复访问,这时候我们就应该使用代理IP,每次访问前伪装自己,让"敌人"无法察觉. oooooooooooooooOK,让我们愉快的开始吧! 这个是获取代理ip的文件,我将它们模块化,分为三个函数 注:文中会有些英文注释,是为了写代码方便,毕竟英文一两个单词就ok了 #!/usr/bin/python #-*- coding:utf-8 -*- """ author:dasuda "&
-
Python关于反射的实例代码分享
反射 在Python中,能够通过一个对象,找出type.class.attribute或者method的能力,成为反射. 函数与方法 内建函数: getattr(object,name[,degault]) 通过name返回object的属性值,当属性不存在,将使用default返回,如果没有default,则抛出AttributeError.Name必须为字符串. setattr(object,name,value) object的属性存在,则覆盖,不存在,新增. hasattr(object
-
Python封装zabbix-get接口的代码分享
Zabbix 是一款强大的开源网管监控工具,该工具的客户端与服务端是分开的,我们可以直接使用自带的zabbix_get命令来实现拉取客户端上的各种数据,在本地组装参数并使用Popen开子线程执行该命令,即可实现批量监测. 封装Engine类: 该类的主要封装了Zabbix接口的调用,包括最基本的参数收集. import subprocess,datetime,time,math class Engine(): def __init__(self,address,port): self.addre
-
Python验证文件是否可读写代码分享
本文分享实例代码主要在实现验证文件是否有读写权限问题,具体如下: # Import python libs import os def is_writeable(path, check_parent=False): ''' Check if a given path is writeable by the current user. :param path: The path to check :param check_parent: If the path to check does not
-
Python爬虫——爬取豆瓣电影Top250代码实例
利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中.基本上爬取结果还是挺好的.具体代码如下: #!/usr/bin/python #-*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf8') from bs4 import BeautifulSoup imp
-
Python爬虫获取豆瓣电影并写入excel
豆瓣电影排行榜前250 分为10页,第一页的url为https://movie.douban.com/top250,但实际上应该是https://movie.douban.com/top250?start=0 后面的参数0表示从第几个开始,如0表示从第一(肖申克的救赎)到第二十五(触不可及),https://movie.douban.com/top250?start=25表示从第二十六(蝙蝠侠:黑暗骑士)到第五十名(死亡诗社).等等, 所以可以用一个步长为25的range的for循环参数 复制代
-
利用python获取Ping结果示例代码
前言 本文主要跟大家分享了关于利用python获取Ping结果的相关内容,分享出来供大家参考学习,下面话不多说,来一起看看详细的介绍吧. 示例代码: # -*- coding: utf-8 -*- import subprocess import re def get_ping_result(ip_address): p = subprocess.Popen(["ping.exe", ip_address], stdin = subprocess.PIPE, stdout = subp
随机推荐
- 把普通对象转换成json格式的对象的简单实例
- jQuery EasyUI API 中文文档 - Tabs标签页/选项卡
- Linux内核中红黑树算法的实现详解
- JAVA实现数字大写金额转换的方法
- Oracle中SQL语句连接字符串的符号使用介绍
- SQL Server、Oracle和MySQL判断NULL的方法
- phpmyadmin3 安装配置图解教程
- PHP提取字符串中的图片地址[正则表达式]
- 举例讲解Android应用开发中OTTO框架的基本使用
- Shell脚本中使用function(函数)示例
- js控制div层的叠加简单方法
- JS中的数组方法笔记整理
- js实现input框文字动态变换显示效果
- javascript数组排序汇总
- 详解linux下make命令的使用方法
- 在mybatis执行SQL语句之前进行拦击处理实例
- Android App中实现图片异步加载的实例分享
- Redis集群的搭建图文教程
- Linux(Ubuntu 18.04)上安装Anaconda步骤详解
- 详解10个可以快速用Python进行数据分析的小技巧