详解Python中的Cookie模块使用

2025-02-16 13:53:58

最近在用GAE开发自己的博客程序。虽然GAE的API没有显式的提供操作Cookie的方法，但他现有的架构，使我们有足够的自由来操作Cookie。

Cookie 模块，顾名思义，就是用来操作Cookie的模块。Cookie这块小蛋糕，玩过Web的人都知道，它是Server与Client保持会话时用到的信息切片。 Http协议本身是无状态的，也就是说，同一个客户端发送的两次请求，对于Web服务器来说，没有直接的关系。既然这样，有人会问，既然Http是无状态的，为什么有些网页，只有输入了用户名与密码通过验证之后才可以访问？那是因为：对于通过身份验证的用户，Server会偷偷的在发往Client的数据中添加 Cookie，Cookie中一般保存一个标识该Client的唯一的ID，Client在接下来对服务器的请求中，会将该ID以Cookie的形式一并发往Server，Server从回传回来的Cookie中提取ID并与相应的用户绑定起来，从而实现身份验证。说白了，Cookie就是一个在服务器与客户端之间相互传递的字符串（下图通过FireFox的FireBug插件查看访问google.com时的Cookie）。越扯越远了，回到我们的主题：Python标准模块 — Cookie。

（上图是Http请求头中的Cookie信息）

（上图是Http响应中的Cookie信息）
Cooke模块中定义了4个直接操作Cookie的类：BaseCookie、SimpleCookie、SerialCookie、 SmartCookie。其中，BaseCookie是基类，定义了操作Cookie的公共部分，其他3个类都继承自BaseCookie，它们之间的区别仅仅在于序列化数据的方式不同。下面简单讲解这些类的使用。

BaseCookie基类： BaseCookies的行为非常像dict，可以用键/值对的形式来操作它，但是kye必须是字符串，value是Morsel对象（下面会讲到Morsel）。BaseCookies定义了编码/解码，输入/输出操作的公共规范：

BaseCookie.value_encode(val)：对数据进行序列化/反序列化。这些方法都返回字符串，以便通过Http传输。

BaseCookie.output()：返回字符串，该字符串可以作为Http响应头发往客户端。

BaseCookie.js_output()：返回嵌入js脚本的字符串，浏览器通过执行该脚本，就可以得到cooke数据。

BaseCookie.load(newdata)：解析字符串为Cookie数据。

SimpleCookie、SerialCookie、SmartCookie都继承自BaseCookie，具有一致的行为，它们各自对 BaseCookie的value_decode, value_encode进行了重写并实现自己的序列化/反序列化策略，其中：

SimpleCookie内部使用str()来对数据进行序列化；
SerialCookie则通过pickle模块来序列化反序列化数据；
SmartCookie相对聪明点，对于非字符串数据，使用pickle序列/反序列化，否则将字符串原样返回。

下面的例子简单的说明如何使用Cookie模块：

import Cookie

c = Cookie.SimpleCookie()
c['name'] = 'DarkBull'
c['address'] = 'ChinaHangZhou'
c['address']['path'] = '/'
# 路径
c['address']['domain'] = 'appspot.com'
# domain
c['address']['expires'] = 'Fir, 01-Oct-2010 20:00:00 GMT'
# 过期时间
print c.output()
print c.js_output()

# 输出结果,与上图对照
# Set-Cookie: address=ChinaHangZhou; Domain=appspot.com; expires=Fir, 01-Oct-2010 20:00:00 GMT; Path=/
# Set-Cookie: name=DarkBull

# 作为脚本输出
# <script type="text/javascript">
# document.cookie = "address=ChinaHangZhou; Domain=appspot.com; expires=Fir, 01-Oct-2010 20:00:00 GMT; Path=/";
# </script>

# <script type="text/javascript">
# document.cookie = "name=DarkBull";
# </script>

Morsel类：用于表示Cookie中每一项数据的属性而抽象的类。这些属性包括：expires, path, comment, domain, max-age, secure, version等等（看上图下划线标注部分）。如果你玩过web，对这些应该不会陌生，可以在RCF2109中找到他们的具体定义

Morsel.key，Morsel.value：Cookie数据项的key/value(value可以是二进制数据)；

Morsel.coded_value：数据编码后得到的字符串。Http协议是基于文本的协议，Server无法直接向Client发送二进制数据，只有序列化成字符串后，才能发往Client；

Morsel.set(key, value, coded_value)：设置Cookie数据项的key、value、coded_value；

Morsel.isReversvedKey(key)：如果key是expires, path, comment, domain, max-age, secure, version, httponly中的一个，返回True，否则返回False；

Morsel.output()：返回型如“Set-Cookie: …”的字符串，表示一个Cookie数据项；

Morsel.js_output()：返回Cookie数据项的脚本字符串；

Morsel.OutputString(): 返回Morsel的字符串表示；

Morsel使用示例：

import Cookie

m = Cookie.Morsel()
m.set('name', 'DarkBull', 'DarkBull')
m['expires'] = 'Fir, 01-Oct-2010 20:00:00 GMT'
m['domain'] = 'appspot.com'
print m.output()

# 结果
# Set-Cookie: name=DarkBull; Domain=appspot.com; expires=Fir, 01-Oct-2010 20:00:00

python cookielib 登录人人网的实现代码

先上脚本吧,等下来讲下知识点: 复制代码代码如下: #!/usr/bin/env python #encoding=utf-8 import sys import re import urllib2 import urllib import cookielib class Renren(object): def __init__(self): self.name = self.pwd = self.content = self.domain = self.origURL = '' self.o
python模拟登录并且保持cookie的方法详解

前言最近在爬行 nosec.org 的数据,看了下需要模拟登录拿到cookie后才能访问想抓的数据,重要的是 nosec.org 的登录页面 form 中有个 authenticity_token 字段每次访问登录页面都会自动生成,而且会和你的用户名,密码一样被POST到服务器. 经过一番研究后发现,直接访问网站登录界面的时候,服务器的响应头会有一个Set-Cookie字段,如下: _nosec_session=ZTlHNmxuZXE4R0s1UXpsVUxGRTNPblNBWFd2TXU4T
Python模拟百度登录实例详解

最近公司产品和百度贴吧合作搞活动,为了增加人气,打算做个自动签到的小程序.这个是测试登录的代码,写的比较随意,仅实现了登录并读取关注贴吧列表,下边的就比较简单. 百度登录还是有点麻烦的,由于用的ssl,所以要先获取token,然后再登录,这个用finddle2分析下,还是比较好解决的. # -*- coding: utf8 -*- import urllib2 import urllib import cookielib import re import bs4 URL_BAIDU_INDEX
使用Python中的cookielib模拟登录网站

前面简单提到了 Python 模拟登录的程序,但是没写清楚,这里再补上一个带注释的 Python 模拟登录的示例程序.简单说一下流程:先用cookielib获取cookie,再用获取到的cookie,进入需要登录的网站. # -*- coding: utf-8 -*- # !/usr/bin/python import urllib2 import urllib import cookielib import re auth_url = 'http://www.nowamagic.net/' h
python通过cookie模拟已登录状态的初步研究

对于那些需要在登录环境下进行的爬虫操作,模拟登陆或伪装已登录状态是一个刚需. 分析了网上关于模拟登录的例子,很多都基于用户名/密码发起一个post请求,遇到有图片验证码的,比较理想的方法是进行人工干预,同步发起一个图片验证码的请求,将图片写到本地,人工查看后进行输入. 既然,少不了人工干预,为何登录操作不全程人工进行,已登录后再把浏览器的Cookie信息全拷贝出来,通过爬虫伪造成一个已登录的浏览器呢? 我暂时试了试国内的几个大网站,发现都行得通,可以模拟浏览器进行登录之后的很多操作,包括签到,修
python处理cookie详解

要在用户浏览器上安装cookie,HTTP服务器向HTTP响应添加类似以下内容的HTTP报头: 复制代码代码如下: Set-Cookie:session=8345234;expires=Sun,15-Nov-2013 15:00:00 GMT:path=/:domain=baidu.com expires是cookie的生存周期,path是cookie的有效路径,domain是cookie的有效域. 路径"path"用于设置可以读取一个cookie的最顶层的目录．将cookie的路
Python 用户登录验证的小例子

复制代码代码如下: #!/usr/bin/python#coding=gbk class User: def __init__(self,username,password,age,sex): self.username=username self.password=password self.age=age self.sex=sex def tell(self): print 'UserContext:Name:%s
python使用cookie库操保存cookie详解

Cookie用于服务器实现会话,用户登录及相关功能时进行状态管理.要在用户浏览器上安装cookie,HTTP服务器向HTTP响应添加类似以下内容的HTTP报头: 复制代码代码如下: Set-Cookie:session=8345234;expires=Sun,15-Nov-2013 15:00:00 GMT:path=/:domain=baidu.com expires是cookie的生存周期,path是cookie的有效路径,domain是cookie的有效域. 路径"path"用
玩转python爬虫之cookie使用方法

之前一篇文章我们学习了爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用. 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的.那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了. 在此之前呢,我们必须先介绍一个opener的概念. 1.Opener 当你获取一个URL你
python实现网站的模拟登录

本文主要用python实现了对网站的模拟登录.通过自己构造post数据来用Python实现登录过程. 当你要模拟登录一个网站时,首先要搞清楚网站的登录处理细节(发了什么样的数据,给谁发等...).我是通过HTTPfox来抓取http数据包来分析该网站的登录流程.同时,我们还要分析抓到的post包的数据结构和header,要根据提交的数据结构和heander来构造自己的post数据和header. 分析结束后,我们要构造自己的HTTP数据包,并发送给指定url.我们通过urllib2等几个模块提供

详解Python中的Cookie模块使用

相关推荐

随机推荐