Python读取网页内容的方法
本文实例讲述了Python读取网页内容的方法。分享给大家供大家参考。具体如下:
import urllib2 #encoding = utf-8 class Crawler: def main(self): #req = urllib2.Request('http://www.baidu.com/') #req.add_header('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:5.0)') #urllib2.socket.setdefaulttimeout(10) # 超时10秒 #page = urllib2.urlopen(req) page = urllib2.urlopen('http://www.google.com', timeout=10) data = page.read() print data print len(data) #计算字节长度 if __name__ == '__main__': me=Crawler() me.main()
希望本文所述对大家的Python程序设计有所帮助。
相关推荐
-
零基础写python爬虫之使用urllib2组件抓取网页内容
版本号:Python2.7.5,Python3改动较大,各位另寻教程. 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在Python中,我们使用urllib2这个组件来抓取网页. urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件. 它以urlopen函数的形式提供了一个非常简单的接口. 最简
-
python打开url并按指定块读取网页内容的方法
本文实例讲述了python打开url并按指定块读取网页内容的方法.分享给大家供大家参考.具体实现方法如下: import urllib pagehandler = urllib.urlopen("http://www.baidu.com") outputfile = open("index.html", "wb") while 1: data = pagehandler.read(512) if not data: break outputfil
-
Python 抓取动态网页内容方案详解
用Python实现常规的静态网页抓取时,往往是用urllib2来获取整个HTML页面,然后从HTML文件中逐字查找对应的关键字.如下所示: 复制代码 代码如下: import urllib2 url="http://mm.taobao.com/json/request_top_list.htm?type=0&page=1" up=urllib2.urlopen(url)#打开目标页面,存入变量up cont=up.read()#从up中读入该HTML文件 key1='<a
-
python使用htmllib分析网页内容的方法
本文实例讲述了python使用htmllib分析网页内容的方法.分享给大家供大家参考.具体实现方法如下: import htmllib, urllib, formatter, sys website = urllib.urlopen("http://yourweb.com") data = website.read() website.close() format = formatter.AbstractFormatter(formatter.DumbWriter(sys.stdout
-
python抓取网页内容示例分享
复制代码 代码如下: import socketdef open_tcp_socket(remotehost,servicename): s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) portnumber=socket.getservbyname(servicename,'tcp') s.connect((remotehost,portnumber)) return smysocket=open_tcp_socket
-
Python3访问并下载网页内容的方法
本文实例讲述了Python3访问并下载网页内容的方法.分享给大家供大家参考.具体如下: #!/usr/local/bin/python3.2 import urllib.request,io,os,sys req = urllib.request.Request("http://www.google.com") f = urllib.request.urlopen(req) s = f.read() s = s.decode('gbk','ignore') mdir = sys.pat
-
Python读取网页内容的方法
本文实例讲述了Python读取网页内容的方法.分享给大家供大家参考.具体如下: import urllib2 #encoding = utf-8 class Crawler: def main(self): #req = urllib2.Request('http://www.baidu.com/') #req.add_header('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:5.0)') #urllib2.soc
-
Python读取Excel的方法实例分析
本文实例讲述了Python读取Excel的方法.分享给大家供大家参考.具体如下: 今天需要从一个Excel文档(.xls)中导数据到数据库的某表,开始是手工一行行输的.后来想不能一直这样,就用Python写了下面的代码,可以很方便应对这种场景.比如利用我封装的这些方法可以很方便地生成导入数据的SQL. 当然熟悉Excel编程的同学还可以直接用VBA写个脚本生成插入数据的SQL. 还可以将.xls文件改为.csv文件,然后通过SQLyog或者Navicat等工具导入进来,但是不能细粒度控制(比如不
-
python读取xlsx的方法
如下所示: import xlrd data = xlrd.open_workbook('path') # 第1个sheet table = data.sheet()[0] # 获取行数 nrows = tables.nrows for i in range(nrows): if i == 0: continue # 第i行第j列 print(str(table.row_values(i)[j]).strip()) 以上这篇python读取xl
-
python读取xml文件方法解析
关于python读取xml文章很多,但大多文章都是贴一个xml文件,然后再贴个处理文件的代码.这样并不利于初学者的学习,希望这篇文章可以更通俗易懂的教如何使用python来读取xml文件. 什么是xml? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. abc.xml <?xml version="1.0" encoding="utf-8"?> <catalog> <maxid
-
python读取mnist数据集方法案例详解
mnist手写数字数据集在机器学习中非常常见,这里记录一下用python从本地读取mnist数据集的方法. 数据集格式介绍 这部分内容网络上很常见,这里还是简明介绍一下.网络上下载的mnist数据集包含4个文件: 前两个分别是测试集的image和label,包含10000个样本.后两个是训练集的,包含60000个样本..gz表示这个一个压缩包,如果进行解压的话,会得到.ubyte格式的二进制文件. 上图是训练集的label和image数据的存储格式.两个文件最开始都有magic number和n
-
Python读取二进制文件代码方法解析
问题 有二进制文件中保存了 20 亿个 2 Bytes 的数,需将其读出,每 20000 个数作图,拟合后输出结果. 解决 # -*- coding: utf-8 -*- """ @author: kurrrr """ import struct def main(): data_file = open('run0035.bin', 'rb') data_temp = data_file.read(2) data_short, = struct.
-
从python读取sql的实例方法
从python读取sql的方法: 1.利用python内置的open函数读入sql文件: 2.利用第三方库pymysql中的connect函数连接mysql服务器: 3.利用第三方库pandas中的read_sql方法读取传入的sql文件即可. python 直接读取 sql 文件,达到使用 read_sql 可执行的目的 # sql文件夹路径 sql_path = 'sql文件夹路径' + '\\' # sql文件名, .sql后缀的 sql_file = 'sql文件名.sql' # 读取
-
Python读取mp3中ID3信息的方法
本文实例讲述了Python读取mp3中ID3信息的方法.分享给大家供大家参考.具体分析如下: pyid3不好用,常常有不认识的. mutagen不错,不过默认带的easyid3不会读取注释,需要手工hack一下 Python代码如下: from mutagen.mp3 import MP3 import mutagen.id3 from mutagen.easyid3 import EasyID3 EasyID3.valid_keys["comment"]="COMM::'X
-
python读取json文件并将数据插入到mongodb的方法
本文实例讲述了python读取json文件并将数据插入到mongodb的方法.分享给大家供大家参考.具体实现方法如下: #coding=utf-8 import sunburnt import urllib from pymongo import Connection from bson.objectid import ObjectId import logging from datetime import datetime import json from time import mktime
随机推荐
- php发送get、post请求的6种方法简明总结
- AngularJS 2.0新特性有哪些
- litjson读取数据示例
- JavaScript中通过闭包解决只能取得包含函数中任何变量最后一个值的问题
- jQuery get和post 方法传值注意事项
- Android ListView下拉刷新上拉自动加载更多DEMO示例
- php中的单引号、双引号和转义字符详解
- 小结Node.js中非阻塞IO和事件循环
- 强烈推荐 - Ajax 技术资源中心
- JavaScript实现替换字符串中最后一个字符的方法
- jquery.multiselect多选下拉框实现代码
- 安卓APP测试之使用Burp Suite实现HTTPS抓包方法
- 微信小程序开发之Tabbar实例详解
- 用javascript获取任意颜色的更亮或更暗颜色值示例代码
- IOS xib布局小技巧-边框设置
- 有关二级域名的问题
- 裸睡有利于身体健康吗?
- 电脑工作者防辐射食谱
- 简单就是美,网络命令行的使用和范例
- python决策树之CART分类回归树详解