python网络编程学习笔记(六)：Web客户端访问

2025-04-11 14:17:52

6.1 最简单的爬虫

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。python的urllib\urllib2等模块很容易实现这一功能，下面的例子实现的是对baidu首页的下载。具体代码如下：

代码如下:

import urllib2
page=urllib2.urlopen("http://www.baidu.com")
print page.read()

6.2 提交表单数据

(1)用GET方法提交数据
提交表单的GET方法是把表单数据编码至URL。在给出请示的页面后，加上问号，接着是表单的元素。如在百度中搜索“马伊琍”得到url为http://www.baidu.com/s?wd=%E9%A9%AC%E4%BC%8A%E7%90%8D&pn=100&rn=20&ie=utf-8&usm=4&rsv_page=1。其中？后面为表单元素。wd=%E9%A9%AC%E4%BC%8A%E7%90%8D表示搜索的词是“马伊琍”，pn表示从第100条信息所在页开始显示（感觉是这样，我试了几次，当写100时，从其所在页显示，但如果写10，就是从第1页显示），rn=20表示每页显示20条，ie=utf-8表示编码格式，usm=4没明白是什么意思，换了1、2、3试了下，没发现什么变化，rsv_page=1表示第几页。如果要下载以上页面比较简单的方法是直接用上面的网址进行提取。如代码：

代码如下:

import urllib2
keyword=urllib.quote('马伊琍')
page=urllib2.urlopen("http://www.baidu.com/s?wd="+keyword+"&pn=100&rn=20&ie=utf-8&usm=4&rsv_page=1")
print page.read()

(2)用post方法提交

GET方法中，数据是被加到URL上，这种方法数据量要求不大，如果需要交换大量数据的时间，POST方法是一个很好的方法。这里以前段时间写的博客《python模拟163登陆获取邮件列表》为例，具体代码不在列出，详见地址：http://www.cnblogs.com/xiaowuyi/archive/2012/05/21/2511428.html。

6.3 urllib,urllib2,httplib，mechanize的介绍
6.3.1urllib模块(引自：http://my.oschina.net/duhaizhang/blog/68893)
urllib模块提供接口可以使我们像访问本地文件一样来读取www和ftp上的数据。模块中最重要的两个函数分别是：urlopen()和urlretrieve()。

urllib.urlopen(url[, data[, proxies]]) :
本函数创建一个表示远程url的类文件对象，然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示远程数据的路径，一般是网址；参数data表示以post方式提交到url的数据；参数proxies用于设置代理。urlopen返回一个类文件对象，返回的类文件对象提供了如下方法：

read(), readline(), readlines(), fileno(), close()：这些方法的使用方式与文件对象完全一样;
info()：返回一个httplib.HTTPMessage对象，表示远程服务器返回的头信息；
getcode()：返回Http状态码。如果是http请求，200表示请求成功完成;404表示网址未找到；
geturl()：返回请求的url；

代码如下:

#! /usr/bin/env python
#coding=utf-8
import urllib
content=urllib.urlopen("http://www.baidu.com")
print "http header:",content.info()
print "http status:",content.getcode()
print "url:",content.geturl()
print "content:"
for line in content.readlines():
print line

urllib.urlretrieve(url[, filename[, reporthook[, data]]])：
urlretrieve方法直接将远程数据下载到本地。参数filename指定了保存到本地的路径（如果未指定该参数，urllib会生成一个临时文件来保存数据）；参数reporthook是一个回调函数，当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调（即每下载一块就调用一次回调函数）。我们可以利用这个回调函数来显示当前的下载进度，也可以用于限速，下面的例子会展示。参数data指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers)，filename表示保存到本地的路径， header表示服务器的响应头。

代码如下:

#! /usr/bin/env python
# coding: utf-8
"""下载文件，并显示下载进度"""
import urllib

def DownCall(count,size,total_filesize):
    """count为已下载数据块个数，size为数据块的大小，total_filesize为文件总大小"""
    per=100.0*count*size/total_filesize
    if per>100:
        per=100
    print "Already download %d KB(%.2f" %(count*size/1024,per)+"%)"

url="http://www.research.rutgers.edu/~rohanf/LP.pdf"
localfilepath=r"C:\Users\Administrator\Desktop\download.pdf"
urllib.urlretrieve(url,localfilepath,DownCall)

urllib中还提供了一些辅助方法，用于对url进行编码、解码。url中是不能出现一些特殊的符号的，有些符号有特殊的用途。我们知道以get方式提交数据的时候，会在url中添加key=value这样的字符串，所以在value中是不允许有'='，因此要对其进行编码；与此同时服务器接收到这些参数的时候，要进行解码，还原成原始的数据。这个时候，这些辅助方法会很有用：

urllib.quote(string[, safe])：对字符串进行编码。参数safe指定了不需要编码的字符;
urllib.unquote(string) ：对字符串进行解码；
urllib.quote_plus(string[, safe]) ：与urllib.quote类似，但这个方法用'+'来替换' '，而quote用'%20'来代替' '
urllib.unquote_plus(string) ：对字符串进行解码；
urllib.urlencode(query[, doseq])：将dict或者包含两个元素的元组列表转换成url参数。例如字典{'name': 'dark-bull', 'age': 200}将被转换为"name=dark-bull&age=200"
urllib.pathname2url(path)：将本地路径转换成url路径；
urllib.url2pathname(path)：将url路径转换成本地路径；

6.3.2 urllib2模块(引自：http://hankjin.blog.163.com/blog/static/3373193720105140583594/)
使用Python访问网页主要有三种方式： urllib, urllib2, httplib
urllib比较简单，功能相对也比较弱，httplib简单强大，但好像不支持session
（1）最简单的页面访问
res=urllib2.urlopen(url)
print res.read()
（2）加上要get或post的数据
data={"name":"hank", "passwd":"hjz"}
urllib2.urlopen(url, urllib.urlencode(data))
（3）加上http头
header={"User-Agent": "Mozilla-Firefox5.0"}
urllib2.urlopen(url, urllib.urlencode(data), header)

使用opener和handler
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)
（4）加上session
cj = cookielib.CookieJar()
cjhandler=urllib2.HTTPCookieProcessor(cj)
opener = urllib2.build_opener(cjhandler)
urllib2.install_opener(opener)
（5）加上Basic认证
password_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()
top_level_url = "http://www.163.com/"
password_mgr.add_password(None, top_level_url, username, password)
handler = urllib2.HTTPBasicAuthHandler(password_mgr)
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)
（6）使用代理
proxy_support = urllib2.ProxyHandler({"http":"http://1.2.3.4:3128/"})
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
（7）设置超时
socket.setdefaulttimeout(5)

6.3.3 httplib模块（引自：http://hi.baidu.com/avengert/item/be5daec8517b12ddee183b81）
httplib 是 python中http 协议的客户端实现，可以使用该模块来与 HTTP 服务器进行交互。httplib的内容不是很多，也比较简单。以下是一个非常简单的例子，使用httplib获取google首页的html：

代码如下:

#coding=gbk
import httplib
conn = httplib.HTTPConnection("www.google.cn")
conn.request('get', '/')
print conn.getresponse().read()
conn.close()

下面详细介绍httplib提供的常用类型和方法。
httplib.HTTPConnection ( host [ , port [ , strict [ , timeout ]]] )
　　HTTPConnection类的构造函数，表示一次与服务器之间的交互，即请求/响应。参数host表示服务器主机，如：www.csdn.net；port为端口号，默认值为80；参数strict的默认值为false，表示在无法解析服务器返回的状态行时( status line) （比较典型的状态行如： HTTP/1.0 200 OK ），是否抛BadStatusLine 异常；可选参数timeout 表示超时时间。
　　HTTPConnection提供的方法：
HTTPConnection.request ( method , url [ , body [ , headers ]] )
　　调用request 方法会向服务器发送一次请求，method 表示请求的方法，常用有方法有get 和post ；url 表示请求的资源的url ；body 表示提交到服务器的数据，必须是字符串（如果method 是"post" ，则可以把body 理解为html 表单中的数据）；headers 表示请求的http 头。
HTTPConnection.getresponse ()
　　获取Http 响应。返回的对象是HTTPResponse 的实例，关于HTTPResponse 在下面会讲解。
HTTPConnection.connect ()
　　连接到Http 服务器。
HTTPConnection.close ()
　　关闭与服务器的连接。
HTTPConnection.set_debuglevel ( level )
　　设置高度的级别。参数level 的默认值为0 ，表示不输出任何调试信息。
httplib.HTTPResponse
　　HTTPResponse表示服务器对客户端请求的响应。往往通过调用HTTPConnection.getresponse()来创建，它有如下方法和属性：
HTTPResponse.read([amt])
　　获取响应的消息体。如果请求的是一个普通的网页，那么该方法返回的是页面的html。可选参数amt表示从响应流中读取指定字节的数据。
HTTPResponse.getheader(name[, default])
　　获取响应头。Name表示头域(header field)名，可选参数default在头域名不存在的情况下作为默认值返回。
HTTPResponse.getheaders()
　　以列表的形式返回所有的头信息。
HTTPResponse.msg
　　获取所有的响应头信息。
HTTPResponse.version
　　获取服务器所使用的http协议版本。11表示http/1.1；10表示http/1.0。
HTTPResponse.status
　　获取响应的状态码。如：200表示请求成功。
HTTPResponse.reason
　　返回服务器处理请求的结果说明。一般为”OK”
下面通过一个例子来熟悉HTTPResponse中的方法：

代码如下:

#coding=gbk
import httplib
conn = httplib.HTTPConnection("www.g.cn", 80, False)
conn.request('get', '/', headers = {"Host": "www.google.cn",
                                    "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5",
                                    "Accept": "text/plain"})
res = conn.getresponse()
print 'version:', res.version
print 'reason:', res.reason
print 'status:', res.status
print 'msg:', res.msg
print 'headers:', res.getheaders()
#html
#print '\n' + '-' * 50 + '\n'
#print res.read()
conn.close()

Httplib模块中还定义了许多常量，如：
Httplib. HTTP_PORT 的值为80，表示默认的端口号为80；
Httplib.OK 的值为200，表示请求成功返回；
Httplib. NOT_FOUND 的值为40表示请求的资源不存在；
可以通过httplib.responses 查询相关变量的含义，如：
Print httplib.responses[httplib.NOT_FOUND]
6.3.4 mechanize
mechanize没有找到比较完整的介绍，自己写了一个简单的例子如下。

代码如下:

# -*- coding: cp936 -*-
import time,string
import mechanize,urllib
from mechanize import Browser

urlname=urllib.quote('马伊琍')
br=Browser()
br.set_handle_robots(False) ##ignore the robots.txt
urlhttp=r'http://www.baidu.com/s?'+urlname+"&pn=10&rn=20&ie=utf-8&usm=4&rsv_page=1"
response=br.open(urlhttp)
filename='temp.html'
f=open(filename,'w')
f.write(response.read())
f.close()

python网络编程之TCP通信实例和socketserver框架使用例子

1.TCP是一种面向连接的可靠地协议,在一方发送数据之前,必须在双方之间建立一个连接,建立的过程需要经过三次握手,通信完成后要拆除连接,需要经过四次握手,这是由TCP的半关闭造成的,一方在完成数据发送后要发送一个FIN来终止这个方向的连接,一个TCP连接在收到一个FIN后仍能发送数据,但应用程序很少这么做,下面是TCP连接建立和拆除的过程: 2.python可以实现TCP服务器和客户端的编程,下面是代码: 服务器端: 复制代码代码如下: #!/usr/bin/env pythonimport
用Python进行TCP网络编程的教程

Socket是网络编程的一个抽象概念.通常我们用一个Socket表示"打开了一个网络链接",而打开一个Socket需要知道目标计算机的IP地址和端口号,再指定协议类型即可. 客户端大多数连接都是可靠的TCP连接.创建TCP连接时,主动发起连接的叫客户端,被动响应连接的叫服务器. 举个例子,当我们在浏览器中访问新浪时,我们自己的计算机就是客户端,浏览器会主动向新浪的服务器发起连接.如果一切顺利,新浪的服务器接受了我们的连接,一个TCP连接就建立起来的,后面的通信就是发送网页内容了. 所
python网络编程学习笔记(三)：socket网络服务器

1.TCP连接的建立方法客户端在建立一个TCP连接时一般需要两步,而服务器的这个过程需要四步,具体见下面的比较. 步骤 TCP客户端 TCP服务器第一步建立socket对象建立socket对象第二步调用connect()建立一个和服务器的连接设置socket选项(可选) 第三步无绑定到一个端口(也可以是一个指定的网卡) 第四步无侦听连接下面具体来讲这四步的建立方法: 第一步,建立socket对象:这里与客户端一样,依然是: s=socket.socket(socket.
python网络编程之UDP通信实例（含服务器端、客户端、UDP广播例子）

UDP广泛应用于需要相互传输数据的网络应用中,如QQ使用的就是UDP协议.在网络质量不好的情况下,使用UDP协议时丢包现象十分严重,但UDP占用资源少,处理速度快,UDP依然是传输数据时常用的协议. 下面是用python实现UDP服务器的代码: 复制代码代码如下: #!/usr/bin/env pythonimport socketaddress=('127.0.0.1',10000)s=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)s.bind
python网络编程学习笔记(八)：XML生成与解析（DOM、ElementTree）

xml.dom篇 DOM是Document Object Model的简称,XML 文档的高级树型表示.该模型并非只针对 Python,而是一种普通XML 模型.Python 的 DOM 包是基于 SAX 构建的,并且包括在 Python 2.0 的标准 XML 支持里. 一.xml.dom的简单介绍 1.主要方法: minidom.parse(filename):加载读取XML文件doc.documentElement:获取XML文档对象node.getAttribute(AttributeN
python网络编程学习笔记(九)：数据库客户端 DB-API

一.DB-API概述 python支持很多不同的数据库.由于不同的卖家服务器导致和数据库通信的网络协议各有不同.在python的早期版本中,每一种数据库都带有自己的python模块,所有这些模块以不同的方式工作,并提供不同的函数.这种方法不便于编写能够在多种数据库服务器类型中运行的代码,于是DB-API库函数产生.在DB-API中,所有连接数据库的模块即便是底层网络协议不同,也会提供一个共同的接口.这一点和JAVA中的JDBC和ODBC类似. DB-API下载地址:http
python网络编程实例简析

本文实例讲述了python网络编程,分享给大家供大家参考. 具体方法如下: 服务端代码如下: from SocketServer import(TCPServer as TCP, StreamRequestHandler as SRH) from time import ctime HOST = '' PORT = 21567 ADDR = (HOST, PORT) class MyRequestHandle(SRH): def handle(self): print 'connecting f
Python 网络编程起步(Socket发送消息)

一.服务端(Server.py) 服务端要做的事情是: 1. 创建一个Socket对象 Code highlighting produced by Actipro CodeHighlighter (freeware) http://www.CodeHighlighter.com/ -->import sockets = socket.socket(socket.AF_INET, socket.SOCK_DGRAM) 2. 绑定一个端口 Code highlighting pro
python网络编程学习笔记(七)：HTML和XHTML解析(HTMLParser、BeautifulSoup)

一.利用HTMLParser进行网页解析具体HTMLParser官方文档可参考http://docs.python.org/library/htmlparser.html#HTMLParser.HTMLParser 1.从一个简单的解析例子开始例1: test1.html文件内容如下: 复制代码代码如下: <html> <head> <title> XHTML 与 HTML 4.01 标准没有太多的不同</title> </head> &l
python socket网络编程步骤详解(socket套接字使用)

一.套接字套接字是为特定网络协议(例如TCP/IP,ICMP/IP,UDP/IP等)套件对上的网络应用程序提供者提供当前可移植标准的对象.它们允许程序接受并进行连接,如发送和接受数据.为了建立通信通道,网络通信的每个端点拥有一个套接字对象极为重要.套接字为BSD UNIX系统核心的一部分,而且他们也被许多其他类似UNIX的操作系统包括Linux所采纳.许多非BSD UNIX系统(如ms-dos,windows,os/2,mac os及大部分主机环境)都以库形式提供对套接字的支持.三种最流行的套接
python网络编程学习笔记(二)：socket建立网络客户端

1.建立socket 建立socket对象需要搞清通信类型和协议家族.通信类型指明了用什么协议来传输数据.协议的例子包括IPv4.IPv6.IPX\SPX.AFP.对于internet通信,通信类型基本上都是AF_INET(和IPv4对应).协议家族一般表示TCP通信的SOCK_STREAM或者表示UDP通信的SOCK_DGRAM.因此对于TCP通信,建立一个socket连接的语句为:s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)对于UDP通
Python简单网络编程示例【客户端与服务端】

本文实例讲述了Python简单网络编程.分享给大家供大家参考,具体如下: 内容目录 1. 客户端(client.py) 2. 服务端(server.py) 一.客户端(client.py) import socket import sys port = 70 host = sys.argv[1] filename = sys.argv[2] s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) s.connect((host, port))

python网络编程学习笔记(六)：Web客户端访问

相关推荐

随机推荐