python scrapy简单模拟登录的代码分析

2024-07-29 10:19:08

1、requests模块。直接携带cookies请求页面。

找到url，发送post请求存储cookie。

2、selenium(浏览器自动处理cookie)。

找到相应的input标签，输入文本，点击登录。

3、scrapy直接带cookies。

找到url，发送post请求存储cookie。

# -*- coding: utf-8 -*-
import scrapy
import re

class GithubLoginSpider(scrapy.Spider):
    name = 'github_login'
    allowed_domains = ['github.com']
    start_urls = ['https://github.com/login']

    def parse(self, response): # 发送Post请求获取Cookies
        authenticity_token = response.xpath('//input[@name="authenticity_token"]/@value').extract_first()
        utf8 = response.xpath('//input[@name="utf8"]/@value').extract_first()
        commit = response.xpath('//input[@name="commit"]/@value').extract_first()
        form_data = {
            'login': 'pengjunlee@163.com',
            'password': '123456',
            'webauthn-support': 'supported',
            'authenticity_token': authenticity_token,
            'utf8': utf8,
            'commit': commit}
        yield scrapy.FormRequest("https://github.com/session", formdata=form_data, callback=self.after_login)

    def after_login(self, response): # 验证是否请求成功
        print(re.findall('Learn Git and GitHub without any code!', response.body.decode()))

知识点扩展：

parse_login方法是提交完表单后callback回调函数指定要执行的方法，为了验证是否成功。这里我们直接在response中搜索Welcome Liu这个字眼就证明登录成功。

这个好理解，重点是yield from super().start_resquests()，这个代表着如果一旦登录成功后，就直接带着登录成功后Cookie值，方法start_urls里面的地址。

这样的话登录成功后的response可以直接在parse里面写。

# -*- coding: utf-8 -*-
import scrapy
from scrapy import FormRequest,Request

class ExampleLoginSpider(scrapy.Spider):
    name = "login_"
    allowed_domains = ["example.webscraping.com"]
    start_urls = ['http://example.webscraping.com/user/profile']
    login_url = 'http://example.webscraping.com/places/default/user/login'

    def parse(self, response):
        print(response.text)

    def start_requests(self):
        yield scrapy.Request(self.login_url,callback=self.login)

    def login(self,response):
        formdata = {
            'email':'liushuo@webscraping.com','password':'12345678'}
        yield FormRequest.from_response(response,formdata=formdata,
                                        callback=self.parse_login)
    def parse_login(self,response):
        # print('>>>>>>>>'+response.text)
        if 'Welcome Liu' in response.text:
            yield from super().start_requests()

到此这篇关于python scrapy简单模拟登录的代码分析的文章就介绍到这了,更多相关python scrapy模拟登录的方法内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

python爬虫框架scrapy实现模拟登录操作示例

本文实例讲述了python爬虫框架scrapy实现模拟登录操作.分享给大家供大家参考,具体如下: 一.背景: 初来乍到的pythoner,刚开始的时候觉得所有的网站无非就是分析HTML.json数据,但是忽略了很多的一个问题,有很多的网站为了反爬虫,除了需要高可用代理IP地址池外,还需要登录.例如知乎,很多信息都是需要登录以后才能爬取,但是频繁登录后就会出现验证码(有些网站直接就让你输入验证码),这就坑了,毕竟运维同学很辛苦,该反的还得反,那我们怎么办呢?这不说验证码的事儿,你可以自己手动输入验
python scrapy简单模拟登录的代码分析

1.requests模块.直接携带cookies请求页面. 找到url,发送post请求存储cookie. 2.selenium(浏览器自动处理cookie). 找到相应的input标签,输入文本,点击登录. 3.scrapy直接带cookies. 找到url,发送post请求存储cookie. # -*- coding: utf-8 -*- import scrapy import re class GithubLoginSpider(scrapy.Spider): name = 'githu
Scrapy实现模拟登录的示例代码

为什么要模拟登录有些网站是需要登录之后才能访问的,即便是同一个网站,在用户登录前后页面所展示的内容也可能会大不相同,例如,未登录时访问Github首页将会是以下的注册页面: 然而,登录后访问Github首页将包含如下页面内容: 如果我们要爬取的是一些需要登录之后才能访问的页面数据就需要模拟登录了.通常我们都是利用的 Cookies 来实现模拟登录,在Scrapy中,模拟登陆网站一般有如下两种实现方式: (1) 请求时携带Cookies (2) 发送P
python使用sessions模拟登录淘宝的方式

之前想爬取一些淘宝的数据,后来发现需要登录,找了很多的资料,有个使用request的sessions加上cookie来登录的,cookie的获取在登录后使用开发者工具可以找到.不过这个登录后获得的网页的代码是静态的,获取动态网页还得另寻他法,一般需要的数据可以在网页的源码中得到,但是你知道的,有些动态加载的就不是那么简单了,而且我发现这样获得的源码中,有些想要获取的数据的格式是经过改动的,比如我要某个商品的具体链接,发现并不能直接使用. 总体而言,这是一次失败的尝试,不过倒是了解到使用sessi
Python Django 简单分页的实现代码解析

这篇文章主要介绍了Python Django 简单分页的实现代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 models.py: from django.db import models class Book(models.Model): title = models.CharField(max_length=32) def __str__(self): return self.title class Meta: db_table =
Python实现简单的文本相似度分析操作详解

本文实例讲述了Python实现简单的文本相似度分析操作.分享给大家供大家参考,具体如下: 学习目标: 1.利用gensim包分析文档相似度 2.使用jieba进行中文分词 3.了解TF-IDF模型环境: Python 3.6.0 |Anaconda 4.3.1 (64-bit) 工具: jupyter notebook 注:为了简化问题,本文没有剔除停用词"stop-word".实际应用中应该要剔除停用词. 首先引入分词API库jieba.文本相似度库gensim import ji
python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

一,cookie和session的区别 cookie在客户的浏览器上,session存在服务器上 cookie是不安全的,且有失效时间 session是在cookie的基础上,服务端设置session时会向浏览器发送设置一个设置cookie的请求,这个cookie包括session的id当访问服务端时带上这个session_id就可以获取到用户保存在服务端对应的session 二,爬虫处理cookie和session 带上cookie和session的好处: 能够请求到登录后的界面带上cook
python GUI库图形界面开发之PyQt5简单绘图板实例与代码分析

在PyQt中常用的图像类有四种,QPixmap,QImage,QPicture,QBitmap 类型描述 QPixmap 专门为绘图设计的,在绘制图片时需要使用QPixmap QImage 提供了一个与硬件无关的图像表示函数,可以用于图片像素级访问 QPicture 是一个绘图设备类,它继承自QPainter类,可以使用QPainter的begin()函数在QPicture上绘图,使用end()函数结束绘图,使用QPicture的save()函数将QPainter所使用的绘图指令保存在文件中
Python3模拟登录操作实例分析

本文实例讲述了Python3模拟登录操作.分享给大家供大家参考,具体如下: 模拟登录_要求: 1. 用户输入账号密码进行登录 2. 用户信息保存在文件内 3. 用户密码输入错误三次后锁定用户逻辑图: 代码: #!/usr/bin/env python3 # Author:Robert # --*-- coding: utf-8 --*-- count = 0 #记录试错次数,计数项赋初始值 load = True #完成功能后退出,赋初始值 file = open("用户信息文件.txt&qu
PHP实现简单注册登录详细代码

PHP实现简单注册登录详细全部代码先看演示~ 示例图: Ps.本人有点懒哈~ 就输出个成功算了吧~ PHP实现登录注册 index.php (首页) login.php (登录) register.php (注册) 代码里面注释写很详细了哦~ 废话不多说直接上代码~ index.php文件代码如下: <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta name

python scrapy简单模拟登录的代码分析

相关推荐

随机推荐