python中mechanize库的简单使用示例
#!/usr/bin/env/ python
#coding=utf-8
import mechanize
import cookielib
# Cookie Jar
cj = cookielib.LWPCookieJar()
# Browser
br = mechanize.Browser()
br.set_cookiejar(cj)
# Browser options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
# Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
# Want debugging messages?
#br.set_debug_http(True)
#br.set_debug_redirects(True)
#br.set_debug_responses(True)
# User-Agent (http header)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/4.0.0')]
# HTTP access and get response pack
br.open("http://hi.baidu.com/alalmn")
print br.response().read().decode("utf-8")
相关推荐
-
Python使用Mechanize模块编写爬虫的要点解析
mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面.结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法. 下面主要总结了使用mechanize模拟浏览器的行为和几个例子(谷歌搜索,百度搜索和人人网登录等) 1.初始化并建立一个浏览器对象 如果没有mechanize需要easy_install安装,以下代码建立浏览器对象并作了一些初始化设置,实际使用过程可以按需开关.其实只用默认的设置也
-
在Python中使用mechanize模块模拟浏览器功能
知道如何快速在命令行或者python脚本中实例化一个浏览器通常是非常有用的. 每次我需要做任何关于web的自动任务时,我都使用这段python代码去模拟一个浏览器. import mechanize import cookielib # Browser br = mechanize.Browser() # Cookie Jar cj = cookielib.LWPCookieJar() br.set_cookiejar(cj) # Browser options br.set_handle_eq
-
Ruby中的Mechanize的使用教程
Ruby中实现网页抓取,一般用的是mechanize,使用非常简单. 安装 复制代码 代码如下: sudo gem install mechanize 抓取网页 复制代码 代码如下: require 'rubygems' require 'mechanize' agent = Mechanize.new page = agent.get('http://google.com/') 模拟点击事件 复制代码 代码如下: page = agent.page.link_with(:text => 'Ne
-
Ruby中使用mechanize批量下载校内网相册照片
自己闲来无事,用mechanize做了一个可以下载校内相册照片的代码. 写的有些简陋....主要是根据相册的地址来分析用户ID和相册ID,然后模拟请求相册页面,并提取所有照片,然后下载到本地的一个文件夹中. ruby版本:ruby1.8.7 or ruby1.9.2 操作系统:windows 7 Linux下没有试过~不过应该也可以的: 复制代码 代码如下: #encoding: utf-8 require 'rubygems' require 'mechanize' class Renren
-
python中mechanize库的简单使用示例
复制代码 代码如下: #!/usr/bin/env/ python#coding=utf-8import mechanizeimport cookielib # Cookie Jarcj = cookielib.LWPCookieJar() # Browserbr = mechanize.Browser()br.set_cookiejar(cj) # Browser optionsbr.set_handle_equiv(True)br.set_handle_gzip(True)br.set_ha
-
python中turtle库的简单使用教程
python的turtle库的简单使用 Python的turtle库是一个直观有趣的图形绘制函数库,是python的标准库之一. 一.绘图坐标体系 turtle库绘制图形的基本框架:通过一个小海龟在坐标系中的爬行轨迹绘制图形,小海龟的初始位置在画布中央. turtle.setup(width,height,startx,starty) 1.width,height:为主窗体的宽和高 2.startx,starty:为窗口距离左侧与屏幕左侧像素距离和窗口顶部与屏幕顶部的像素距离. import t
-
python中pandas库中DataFrame对行和列的操作使用方法示例
用pandas中的DataFrame时选取行或列: import numpy as np import pandas as pd from pandas import Sereis, DataFrame ser = Series(np.arange(3.)) data = DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz')) data['w'] #选择表格中的'w'列,使用类字典属性,返回的是S
-
快速了解Python开发中的cookie及简单代码示例
cookie :是用户保存在用户浏览器端的一对键值对,是为了解决http的无状态连接.服务端是可以把 cookie写到用户浏览器上,用户每次发请求会携带cookie. 存放位置: 每次发请求cookie是放在请求头里面的. 应用场景: ·登陆用户和密码的记住密码 ·显示每页显示的数据,以后都是按照设定的数目显示 ·投票机制 案例用户登录 创建用户登录的url url(r'^login/', views.login), 创建登录页面 代码为: <!DOCTYPE html> <html l
-
使用Python中tkinter库简单gui界面制作及打包成exe的操作方法(二)
上一篇我们写了怎么将xmind转换成想要的excel格式,这篇再讲一下用Python自带的tkinter库设计一个简单的gui界面,让我们的xmind路径,用例版本执行等都通过这个gui界面来输入,生成我们需要的excel文件. Python要生成gui,库还是比较多的比如wxpython,这个我看了下,感觉比较难懂,毕竟只是设计一个比较简单的gui界面,所以就使用了tkinter库,感觉这个还是比较方便易懂的,大家可以在这里学习tkinter库http://c.biancheng.net/py
-
python中requests库+xpath+lxml简单使用
python的requests 它是python的一个第三方库,处理URL比urllib这个库要方便的多,并且功能也很丰富. [可以先看4,5表格形式的说明,再看前面的] 安装 直接用pip安装,anconda是自带这个库的. pip install requests 简单使用 requests的文档 1.简单访问一个url: import requests url='http://www.baidu.com' res = requests.get(url) res.text res.statu
-
Python利用turtle库绘制彩虹代码示例
语言:Python IDE:Python.IDE 需求 做出彩虹效果 颜色空间 RGB模型:光的三原色,共同决定色相 HSB/HSV模型:H色彩,S深浅,B饱和度,H决定色相 需要将HSB模型转换为RGB模型 代码示例: #-*- coding:utf-8 –*- from turtle import * def HSB2RGB(hues): hues = hues * 3.59 #100转成359范围 rgb=[0.0,0.0,0.0] i = int(hues/60)%6 f = hues/
-
Python 中Pickle库的使用详解
在"通过简单示例来理解什么是机器学习"这篇文章里提到了pickle库的使用,本文来做进一步的阐述. 那么为什么需要序列化和反序列化这一操作呢? 1.便于存储.序列化过程将文本信息转变为二进制数据流.这样就信息就容易存储在硬盘之中,当需要读取文件的时候,从硬盘中读取数据,然后再将其反序列化便可以得到原始的数据.在Python程序运行中得到了一些字符串.列表.字典等数据,想要长久的保存下来,方便以后使用,而不是简单的放入内存中关机断电就丢失数据.python模块大全中的Pickle模块就派
-
Python中threading库实现线程锁与释放锁
控制资源访问 前文提到threading库在多线程时,对同一资源的访问容易导致破坏与丢失数据.为了保证安全的访问一个资源对象,我们需要创建锁. 示例如下: import threading import time class AddThread(): def __init__(self, start=0): self.lock = threading.Lock() self.value = start def increment(self): print("Wait Lock") se
-
Python中glob库实现文件名的匹配
目录 前言 通配符 星号(*) 问号(?) 区间匹配([0-9][a-z][A-Z]) 转义元字符 前言 既然在Pathlib库中提到了glob()函数,那么我们就专门用一篇内容讲解文件名的匹配.其实我们有专门的一个文件名匹配库就叫:glob. 不过,glob库的API非常小,但是仅仅应用于文件名的匹配绰绰有余.只要是在实际的项目中需要过滤,或者匹配一组文件,都可以使用该库进行操作. 通配符 星号(*) 话不多说,下面我们使用通配符来匹配文件名,示例如下: import glob for nam
随机推荐
- 基于JavaBean编辑器读取peroperties文件的实例
- SQL中Merge用法详解
- JavaScript操作XML 使用百度RSS作为新闻源示例
- java单例模式使用详解
- ASP.NET通过自定义函数实现对字符串的大小写切换功能
- RedisRepository 分享和纠错
- html+javascript+bootstrap实现层级多选框全层全选和多选功能
- 基于PHP静态类的原罪详解
- python模拟登录百度贴吧(百度贴吧登录)实例
- c++将引用或者是指针作为函数参数实现实参的运算
- C++ 使用模板实现一个List的实例
- 微信小程序实现表单校验功能
- js判断手机系统是android还是ios
- VBS中用CDO.Message发送邮件的实现代码
- 解析关于SQL语句Count的一点细节
- sqlserver中操作主从关系表的sql语句
- PHP 使用memcached简单示例分享
- nginx文件强制下载的配置方法
- java中如何反射获取一个类
- Android webview和js互相调用实现方法