python爬虫基于requests模块发起ajax的get请求实现解析

2025-04-01 06:17:12

基于requests模块发起ajax的get请求

需求：爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据

用抓包工具捉取使用ajax加载页面的请求

鼠标往下下滚轮拖动页面，会加载更多的电影信息，这个局部刷新是当前页面发起的ajax请求，

用抓包工具捉取页面刷新的ajax的get请求，捉取滚轮在最底部时候发起的请求

这个get请求是本次发起的请求的url

ajax的get请求携带参数

获取响应内容不再是页面数据，是json字符串，是通过异步请求获取的电影详情信息

start和limit参数需要注意，改变这两个参数获取的电影详情不一样

import requests
import json
# 指定ajax-get请求的url（通过抓包进行获取）
url = 'https://movie.douban.com/j/chart/top_list?'
# 封装ajax的get请求携带的参数(从抓包工具中获取) 封装到字典
param = {
  'type': '13',
  'interval_id': '100:90',
  'action': '',
  'start': '20', # 从第20个电影开始获取详情
  'limit': '20', # 获取多少个电影详情
  # 改变这两个参数获取的电影详情不一样
}
# 定制请求头信息，相关的头信息必须封装在字典结构中
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
}
# 发起ajax的get请求还是用get方法
response = requests.get(url=url,params=param,headers=headers)

# 获取响应内容：响应内容为json字符串
data = response.text
data = json.loads(data)
for data_dict in data:
  print(data_dict["rank"],data_dict["title"])

'''
芙蓉镇
沉静如海
淘金记
马戏团
情迷意乱
士兵之歌
战争与和平
怦然心动
大话西游之月光宝盒
罗马假日
音乐之声
一一
雨中曲
我爱你
莫娣
卡比利亚之夜
婚姻生活
本杰明·巴顿奇事
情书
春光乍泄
'''

从21个电影开始获取信息，总共获取20个电影详情信息

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

python爬虫入门教程--优雅的HTTP库requests（二）

前言 urllib.urllib2.urllib3.httplib.httplib2 都是和 HTTP 相关的 Python 模块,看名字就觉得很反人类,更糟糕的是这些模块在 Python2 与 Python3 中有很大的差异,如果业务代码要同时兼容 2 和 3,写起来会让人崩溃. 好在,还有一个非常惊艳的 HTTP 库叫 requests,它是 GitHUb 关注数最多的 Python 项目之一,requests 的作者是 Kenneth Reitz 大神. requests 实现了 HTTP
python中数据爬虫requests库使用方法详解

一.什么是Requests Requests 是Python语编写,基于urllib,采Apache2 Licensed开源协议的 HTTP 库.它urllib 更加方便,可以节约我们大量的工作,完全满足HTTP测试需求. 一句话--requests是python实现的简单易用的HTTP库二.安装Requests库进入命令行win+R执行命令:pip install requests 项目导入:import requests 三.各种请求方式直接上代码,不明白可以查看我的urllib的基
Python使用requests及BeautifulSoup构建爬虫实例代码

本文研究的主要是Python使用requests及BeautifulSoup构建一个网络爬虫,具体步骤如下. 功能说明在Python下面可使用requests模块请求某个url获取响应的html文件,接着使用BeautifulSoup解析某个html. 案例假设我要http://maoyan.com/board/4猫眼电影的top100电影的相关信息,如下截图: 获取电影的标题及url. 安装requests和BeautifulSoup 使用pip工具安装这两个工具. pip install
Python的Django应用程序解决AJAX跨域访问问题的方法

引子使用Django在服务器端写了一个API,返回一个JSON数据.使用Ajax调用该API: <!DOCTYPE HTML> <html> <head> <meta charset="utf-8"> <meta name="viewport" content="maximum-scale=1.0,minimum-scale=1.0,user-scalable=0,width=device-width
Python Flask前后端Ajax交互的方法示例

之前总结过flask里的基础知识,现在来总结下flask里的前后端数据交互的知识,这里用的是Ajax 一. post方法 1.post方法的位置:在前端HTML里,绑定在一个按钮的点击函数里,或者一个鼠标输入框点击离开事件. (1)数据附在URL里(请求路径),发送到后端. /*前端HTML<script>里:*/ $.post("/js_post/"+ip, data_to_backend, function(data){alert("success "
python爬虫中get和post方法介绍以及cookie作用

首先确定你要爬取的目标网站的表单提交方式,可以通过开发者工具看到.这里推荐使用chrome. 这里我用163邮箱为例打开工具后再Network中,在Name选中想要了解的网站,右侧headers里的request method就是提交方式.status如果是200表示成功访问下面的有头信息,cookie是你登录之后产生的存储会话(session)信息的.第一次访问该网页需要提供用户名和密码,之后只需要在headers里提供cookie就可以登陆进去. 引入requests库,会提供get和po
python爬虫基于requests模块发起ajax的get请求实现解析

基于requests模块发起ajax的get请求需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据用抓包工具捉取使用ajax加载页面的请求鼠标往下下滚轮拖动页面,会加载更多的电影信息,这个局部刷新是当前页面发起的ajax请求, 用抓包工具捉取页面刷新的ajax的get请求,捉取滚轮在最底部时候发起的请求这个get请求是本次发起的请求的url ajax的get请求携带参数获取响应内容不再是页面数据,是json字符串,是通过异步请求获取的电影
python爬虫基于requests模块的get请求实现详解

需求:爬取搜狗首页的页面数据 import requests # 1.指定url url = 'https://www.sogou.com/' # 2.发起get请求:get方法会返回请求成功的响应对象 response = requests.get(url=url) # 3.获取响应中的数据:text属性作用是可以获取响应对象中字符串形式的页面数据 page_data = response.text # 4.持久化数据 with open("sougou.html","w&
python爬虫之request模块深入讲解

目录一.概述二.安装和基本步骤使用三.http知识复习四.request请求模块的方法使用五,params和payload参数使用说明总结一.概述在后期渗透测试中,经常会遇到需要向第三方发送http请求的场景,python中的requests库可以很好的满足这一要求,Requests模块是一个用于网络请求的模块,主要用来模拟浏览器发请求.其实类似的模块有很多,比如urllib,urllib2,httplib,httplib2,他们基本都提供相似的功能.但是这些模块都复杂而且差不多
使用Python爬虫库requests发送请求、传递URL参数、定制headers

首先我们先引入requests模块 import requests 一.发送请求 r = requests.get('https://api.github.com/events') # GET请求 r = requests.post('http://httpbin.org/post', data = {'key':'value'}) # POST请求 r = requests.put('http://httpbin.org/put', data = {'key':'value'}) # PUT请
python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例

使用python爬虫库requests,urllib爬取今日头条街拍美图代码均有注释 import re,json,requests,os from hashlib import md5 from urllib.parse import urlencode from requests.exceptions import RequestException from bs4 import BeautifulSoup from multiprocessing import Pool #请求索引页 d
Python爬虫之requests库基本介绍

目录一.说明二.基本用法: 总结一.说明 requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多. Requests 有这些功能: 1.Keep-Alive & 连接池2.国际化域名和 URL3.带持久 Cookie 的会话4.浏览器式的 SSL 认证5.自动内容解码6.基本/摘要式的身份认证7.优雅的 key/value Cookie8.自
python爬虫之selenium模块

目录一.什么是Selenium 二.selenium安装 1.PhantomJS: 无可视化界面的浏览器(无头浏览器) 2.下载浏览器驱动三.selenium基本使用 1.声明浏览器对象 Headless方式启动 2.访问页面 3.查找元素 1.单个元素查找 2.多个元素查找 4.元素交互操作 1.键盘事件 2.鼠标事件 5.执行JavaScript 6.获取DOM 1.获取元素属性:get_attribute('class') 2.获取文本值:text 3.获取ID,位置,标签名 7.Fr
python爬虫常用的模块分析

本文对Python爬虫常用的模块做了较为深入的分析,并以实例加以深入说明.分享给大家供大家参考之用.具体分析如下: creepy模块某台湾大神开发的,功能简单,能够自动抓取某个网站的所有内容,当然你也可以设定哪些url需要抓. 地址:https://pypi.python.org/pypi/creepy 功能接口: set_content_type_filter: 设定抓取的content-type(header中的contenttype).包括text/html add_url_filter
对python中使用requests模块参数编码的不同处理方法

python中使用requests模块http请求时,发现中文参数不会自动的URL编码,并且没有找到类似urllib (python3)模块中urllib.parse.quote("中文")手动URL编码的方法.研究了半天发现requests模块对中文参数有3种不同的处理方式. 一.requests模块自动URL编码参数要使参数自动URL编码,需要将请求参数以字典的形式定义,如下demo: import requests proxy = {"http":"
Python如何基于rsa模块实现非对称加密与解密

这篇文章主要介绍了Python如何基于rsa模块实现非对称加密与解密,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 1.简单介绍: RSA加密算法是一种非对称加密算法是由已知加密密钥推导出解密密钥在计算上是不可行的"密码体制.加密密钥(即公开密钥)PK是公开信息,而解密密钥(即秘密密钥)SK是需要保密的. RSA密钥至少为500位长,一般推荐使用1024位.RSA密钥长度随着保密级别提高,增加很快. 由于RSA的特性,一个1024位的密钥只能

python爬虫 基于requests模块发起ajax的get请求实现解析

相关推荐

随机推荐

python爬虫基于requests模块发起ajax的get请求实现解析