python requests模拟登陆github的实现方法

2024-12-20 05:20:36

1. Cookie 介绍

HTTP 协议是无状态的。因此，若不借助其他手段，远程的服务器就无法知道以前和客户端做了哪些通信。Cookie 就是「其他手段」之一。 Cookie 一个典型的应用场景，就是用于记录用户在网站上的登录状态。

用户登录成功后，服务器下发一个（通常是加密了的）Cookie 文件。
客户端（通常是网页浏览器）将收到的 Cookie 文件保存起来。
下次客户端与服务器连接时，将 Cookie 文件发送给服务器，由服务器校验其含义，恢复登录状态（从而避免再次登录）。

2.requests使用cookie

当浏览器作为客户端与远端服务器连接时，远端服务器会根据需要，产生一个 SessionID，并附在 Cookie 中发给浏览器。接下来的时间里，只要 Cookie 不过期，浏览器与远端服务器的连接，都会使用这个 SessionID；而浏览器会自动与服务器协作，维护相应的 Cookie。

在requests中，也是这样。我们可以创建一个requests.Session，尔后在该 Session 中与远端服务器通信，其中产生的 Cookie，requests会自动为我们维护好。

3. POST 表单

post 方法可以将一组用户数据，以表单的形式发送到远端服务器。远端服务器接受后，依照表单内容做相应的动作。

调用requests的 POST 方法时，可以用data参数接收一个 Python 字典结构。requests会自动将 Python 字典序列化为实际的表单内容。例如：

import requests

cs_url  = 'http://httpbin.org/post'
my_data  = {
  'key1' : 'value1',
  'key2' : 'value2'
}

r = requests.post (cs_url, data = my_data)
print r.content

4. 实际模拟登录 GitHub 试试看

模拟登录的第一步，首先是要搞清楚我们用浏览器登录时都发生了什么。

GitHub 登录页面是https://github.com/login。我们首先清空浏览器 Cookie 记录，然后用 Chrome 打开登录页面。填入 Username 和 Password 之后，我们打开 Tamper Chrome 和 Chrome 的元素审查工具（找到 Network 标签页），之后点登录按钮。

在 Tamper Chrome 中，我们发现：虽然登录页面是https://github.com/login，但实际接收表单的是https://github.com/session。若登录成功，则跳转到https://github.com/首页，返回状态码200。

而在 Chrome 的审查元素窗口中，我们可以看到提交给session接口的表单信息。内里包含

commit
utf8
authenticity_token
login
password

其中，commit和utf8两项是定值；login和password分别是用户名和密码，这很好理解。唯独authenticity_token是一长串无规律的字符，我们不清楚它是什么。

POST 动作发生在与session接口交互之前，因此可能的信息来源只有login接口。我们打开 login 页面的源码，试着搜索authenticity_token就不难发现有如下内容：

<input name="authenticity_token" type="hidden" value="......" />

原来，所谓的authenticity_token是明白写在 HTML 页面里的，只不过用hidden模式隐藏起来了。为此，我们只需要使用 Python 的正则库解析一下，就好了。

import requests
import re

login_url = 'https://github.com/login'
user = 'user' //具体账号
password = 'password'  //具体密码
user_headers = {
  'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
  'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
  'Accept-Encoding' : 'gzip',
  'Accept-Language' : 'zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4'
}

session = requests.Session()
response = session.get(login_url, headers = user_headers)
pattern = re.compile(r'<input name="authenticity_token" type="hidden" value="(.*)" />')

authenticity_token = pattern.findall(response.content)[0]

login_data = {
  'commit' : 'Sign in',
  'utf8' : '%E2%9C%93',
  'authenticity_token' : authenticity_token,'login' : user,
  'password' : password
}

session_url = 'https://github.com/session'
response = session.post(session_url, headers = user_headers, data = login_data)

1. 首先，我们准备好了和 Chrome 一致的 HTTP 请求头部信息。具体来说，其中的User-Agent是比较重要的。

2. 仿照浏览器与服务器的通信，我们创建了一个requests.Session。

3. 我们用 GET 方法打开登录页面，并用正则库解析到authenticity_token。

4. 将所需的数据，整备成一个 Python 字典login_data

5. 最后，用 POST 方法，将表单提交到session接口。

6. 最终的结果经由302跳转，打开了（200）GitHub 首页.

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

Python爬虫使用脚本登录Github并查看信息

前言分析目标网站的登录方式目标地址: https://github.com/login 登录方式做出分析: 第一,用form表单方式提交信息, 第二,有csrf_token, 第三 ,是以post请求发送用户名和密码时,需要第一次get请求的cookie 第四,登录成功以后,请求其他页面是只需要带第一次登录成功以后返回的cookie就可以. 以get发送的请求获取我们想要的token和cookie 代码: import requests from bs4 import BeautifulSou
使用 Python 玩转 GitHub 的贡献板(推荐)

细心的人都会发现GitHub个人主页有一个记录每天贡献次数的面板,我暂且称之为贡献面板.就像下图那个样子.只要当天在GitHub有提交记录,对应的小格子就会变成绿色,当天提交次数越多,颜色也会越深.因此我就有了一个大胆的想法.细心的你应该也发现了,我就是要讲如何搞出这个小:heart::heart:来.项目地址:https://github.com/YES-Lee/git_painter 原理基本原理前面已经讲过,我们只需要控制项目提交的日期和次数,就能在贡献面板中填充出花样来.可能有朋友会问
使用GitHub和Python实现持续部署的方法

借助 GitHub 的网络钩子webhook,开发者可以创建很多有用的服务.从触发一个 Jenkins 实例上的 CI(持续集成) 任务到配置云中的机器,几乎有着无限的可能性.这篇教程将展示如何使用 Python 和 Flask 框架来搭建一个简单的持续部署(CD)服务. 在这个例子中的持续部署服务是一个简单的 Flask 应用,其带有接受 GitHub 的网络钩子webhook请求的 REST 端点endpoint.在验证每个请求都来自正确的 GitHub 仓库后,服务器将拉取pull更改到仓
python使用心得之获得github代码库列表

1.背景项目需求,要求获得github的repo的api,以便可以提取repo的数据进行分析.研究了一天,终于解决了这个问题,虽然效率还是比较低下. 因为github的那个显示repo的api,列出了每个repo的详细信息,而且是json格式的.现在貌似还没有找到可以分析多个json格式数据的方法,所以用的是比较蠢得splite加re的方法.如果大家有更好的方法,不发留言讨论! 2.代码 import re import os def GetUrl(num): str = os.popen("
如何利用Python模拟GitHub登录详解

前言最近学习了Fiddler抓包工具的简单使用,通过抓包,我们可以抓取到HTTP请求,并对其进行分析.现在我准备尝试着结合Python来模拟GitHub登录. Fiddler抓包分析首先,我们想要模拟一个网站的登录,我们必须要简单了解其大致过程. 在这里,我通过Fiddler来抓取GitHub登录的请求,从网页上登录的URL为:https://github.com/login ,抓包结果如下: 左边的是会话列表,右边的是请求和响应的数据.一般情况下,登录都是用POST请求,因为我在左边的会话
Python基于identicon库创建类似Github上用的头像功能

本文实例讲述了Python基于identicon库创建类似Github上用的头像功能.分享给大家供大家参考,具体如下: Identicon在很多大型IT网站上可以见到,比如Github,Sourceforge,Stackoveflow等等, 刚刚注册的账号的个人信息的默认图标都是一些看上去像七巧板拼凑的图案,对称又变化多端. 本人也是因为好奇才在网上搜了这个算法,主要是哈希算法,把邮箱或
python requests模拟登陆github的实现方法

1. Cookie 介绍 HTTP 协议是无状态的.因此,若不借助其他手段,远程的服务器就无法知道以前和客户端做了哪些通信.Cookie 就是「其他手段」之一. Cookie 一个典型的应用场景,就是用于记录用户在网站上的登录状态. 用户登录成功后,服务器下发一个(通常是加密了的)Cookie 文件. 客户端(通常是网页浏览器)将收到的 Cookie 文件保存起来. 下次客户端与服务器连接时,将 Cookie 文件发送给服务器,由服务器校验其含义,恢复登录状态(从而避免再次登录). 2.requ
python 模拟登陆github的示例

# -*- coding: utf-8 -*- # @Author: CriseLYJ # @Date: 2020-08-14 12:13:11 import re import requests class GithubLogin(object): def __init__(self, email, password): # 初始化信息 self.headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2)
Python爬虫模拟登陆哔哩哔哩(bilibili)并突破点选验证码功能

写在前面今天带给大家一个突破点选验证码的案例,利用爬虫模拟登陆哔哩哔哩,并且把一些采坑的地方给大家强调一下,避免大家想我一样(唉,菜鸡本菜)还是老规矩在文末会附上完整代码,需要的小伙伴自取就好了,能帮助到你的话别忘了点赞关注喔~ 郑重声明:本人目前仅在CSDN这一个平台发布文章,其他小伙伴如果想转载或者引用请注明引用来源,未经许可不得直接搬运,请尊重创作人的劳动成果,谢谢! 一.需求分析模拟登陆哔哩哔哩网站链接: https://passport.bilibili.com
python实现用户登陆邮件通知的方法

本文实例讲述了python实现用户登陆邮件通知的方法.分享给大家供大家参考.具体如下: 这里写在linux计划任务里定时执行,当有新用户登陆时候发送用户名到指定邮箱通知管理员. #!/usr/bin/env python #encoding=utf-8 from smtplib import SMTP import subprocess smtp = "smtp.qq.com" user = '1234567' password = 'xxxx' run_comd = subproce
Python实现模拟登录网易邮箱的方法示例

本文实例讲述了Python实现模拟登录网易邮箱的方法.分享给大家供大家参考,具体如下: #coding:utf-8 import urllib2,urllib import cookielib from bs4 import BeautifulSoup #设置代理IP proxy_support = urllib2.ProxyHandler({'http':'120.197.234.164:80'}) #设置cookie cookie_support = urllib2.HTTPCookiePr
python爬虫模拟浏览器的两种方法实例分析

本文实例讲述了python爬虫模拟浏览器的两种方法.分享给大家供大家参考,具体如下: 爬虫爬取网站出现403,因为站点做了防爬虫的设置一.Herders 属性爬取CSDN博客 import urllib.request url = "http://blog.csdn.net/hurmishine/article/details/71708030"file = urllib.request.urlopen(url) 爬取结果 urllib.error.HTTPError: HTTP
Python Requests模拟登录实现图书馆座位自动预约

本文实例为大家分享了Python实现图书馆座位自动预约的具体代码,供大家参考,具体内容如下配置通过公网主机定时运行脚本,并发送邮件到自己的qq邮箱,这样在微信就会有消息提示是否预约成功 vim /etc/crontab 设置每到早上7:01自动运行脚本即可程序流程 (以yuyue.juneberry.cn网站为例) get访问登录页面,获取cookie和表单里面的隐藏post字段构造登录post数据,加入从表单里面拿到的隐藏post字段 post构造后的数据,模拟登录,激活cookie(
Python 爬虫模拟登陆知乎

在之前写过一篇使用python爬虫爬取电影天堂资源的文章,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了一下python模拟登陆,网上关于这部分的资料很多,很多demo都是登陆知乎的,原因是知乎的登陆比较简单,只需要post几个参数,保存cookie.而且还没有进行加密,很适合用来做教学.我也是是新手,一点点的摸索终于成功登陆上了知乎.就通过这篇文章分享一下学习这部分的心得,希望对那些和我一样的初学者
python模拟登陆,用session维持回话的实例

python模拟登陆的几种方法客户端向服务器发送请求,cookie则是表明我们身份的标志.而"访问登录后才能看到的页面"这一行为,恰恰需要客户端向服务器证明:"我是刚才登录过的那个客户端".于是就需要cookie来标识客户端的身份,以存储它的信息(如登录状态) 1.先在浏览器中登录,然后打开开发者选项,找到一个请求方法为POST的请求,复制Requests Headers中的cookie在爬取需要登录的页面时加上此cookies即可 import requests
python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

一,cookie和session的区别 cookie在客户的浏览器上,session存在服务器上 cookie是不安全的,且有失效时间 session是在cookie的基础上,服务端设置session时会向浏览器发送设置一个设置cookie的请求,这个cookie包括session的id当访问服务端时带上这个session_id就可以获取到用户保存在服务端对应的session 二,爬虫处理cookie和session 带上cookie和session的好处: 能够请求到登录后的界面带上cook

python requests模拟登陆github的实现方法

相关推荐

随机推荐