Python Requests爬虫之求取关键词页面详解

2025-04-01 09:49:10

需求:爬取搜狗首页的页面数据

import requestsif __name__=='__main__':    #step 1:搜索Url    url='https://123.sogou.com/'    #step 2:发起请求    #get方法会返回一个响应对象    response=requests.get(url=url)    #step 3:获取响应数据,text返回的是字符串形式的响应数据    page_text=response.text    print(page_text)    #step 4:持久化存储    with open('./sogou.html','w',encoding='utf-8') as fp:        fp.write(page_text)    print("爬取数据结束")import requests
if __name__=='__main__':
    #step 1:搜索Url
    url='https://123.sogou.com/'
    #step 2:发起请求
    #get方法会返回一个响应对象
    response=requests.get(url=url)
    #step 3:获取响应数据,text返回的是字符串形式的响应数据
    page_text=response.text
    print(page_text)
    #step 4:持久化存储
    with open('./sogou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print("爬取数据结束")

使用UA伪装求取关键词页面

import requests
if __name__=='__main__':
    #UA伪装:将对应的User-Agent封装到一个字典中
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.9 Safari/537.36'
    }
    url='https://www.sogou.com/sie?'
    #处理url携带的参数:封装到字典中
    kw=input('enter a word:')
    param={
        'query':kw
    }
    #对指定的url发起的请求对应的url是携带参数的,并且请求过程中处理了参数
    response=requests.get(url=url,params=param,headers=headers)#headers是伪装 params输入关键词

    page_text=response.text#以文本的形式输出
    fileName=kw+'.html'#存储为网页形式
    with open(fileName,'w+',encoding='utf-8') as fp:
        fp.write(page_text)#写入fp
    print(fileName,"保存成功！！")

总结

本篇文章就到这里了，希望能够给你带来帮助，也希望您能够多多关注我们的更多内容!

Requests什么的通通爬不了的Python超强反爬虫方案！

一.前言一个非常强的反爬虫方案 -- 禁用所有 HTTP 1.x 的请求! 现在很多爬虫库其实对 HTTP/2.0 支持得不好,比如大名鼎鼎的 Python 库 -- requests,到现在为止还只支持 HTTP/1.1,啥时候支持 HTTP/2.0 还不知道. Scrapy 框架最新版本 2.5.0(2021.04.06 发布)加入了对 HTTP/2.0 的支持,但是官网明确提示,现在是实验性的功能,不推荐用到生产环境,原文如下: " HTTP/2 support in Scrapy is
python爬虫利器之requests库的用法(超全面的爬取网页案例)

requests库利用pip安装: pip install requests 基本请求 req = requests.get("https://www.baidu.com/") req = requests.post("https://www.baidu.com/") req = requests.put("https://www.baidu.com/") req = requests.delete("https://www.baid
Python用requests模块实现动态网页爬虫

目录前言开发工具环境搭建总结前言 Python爬虫实战,requests模块,Python实现动态网页爬虫让我们愉快地开始吧~ 开发工具 Python版本: 3.6.4 相关模块: urllib模块: random模块: requests模块: traceback模块: 以及一些Python自带的模块. 环境搭建安装Python并添加到环境变量,pip安装需要的相关模块即可. 那我们就开启爬虫的正确姿势吧,先用解析接口的方法来写爬虫. 首先,找到真实请求.右键检查,点击Networ
python爬虫之利用Selenium+Requests爬取拉勾网

一.前言利用selenium+requests访问页面爬取拉勾网招聘信息二.分析url 观察页面可知,页面数据属于动态加载所以现在我们通过抓包工具,获取数据包观察其url和参数 url="https://www.lagou.com/jobs/positionAjax.json?px=default&needAddtionalResult=false" 参数: city=%E5%8C%97%E4%BA%AC ==>城市 first=true ==>无用 pn=
python爬虫开发之使用Python爬虫库requests多线程抓取猫眼电影TOP100实例

使用Python爬虫库requests多线程抓取猫眼电影TOP100思路: 查看网页源代码抓取单页内容正则表达式提取信息猫眼TOP100所有信息写入文件多线程抓取运行平台:windows Python版本:Python 3.7. IDE:Sublime Text 浏览器:Chrome浏览器 1.查看猫眼电影TOP100网页原代码按F12查看网页源代码发现每一个电影的信息都在"<dd></dd>"标签之中. 点开之后,信息如下: 2.抓取单页内容在浏
Python Requests爬虫之求取关键词页面详解

目录需求:爬取搜狗首页的页面数据使用UA伪装求取关键词页面总结需求:爬取搜狗首页的页面数据 import requestsif __name__=='__main__': #step 1:搜索Url url='https://123.sogou.com/' #step 2:发起请求 #get方法会返回一个响应对象 response=requests.get(url=url) #step 3:获取响应数据,text返回的是字符串形式的响应数据 page_text=response.tex
对python requests发送json格式数据的实例详解

requests是常用的请求库,不管是写爬虫脚本,还是测试接口返回数据等.都是很简单常用的工具. 这里就记录一下如何用requests发送json格式的数据,因为一般我们post参数,都是直接post,没管post的数据的类型,它默认有一个类型的,貌似是 application/x-www-form-urlencoded. 但是,我们写程序的时候,最常用的接口post数据的格式是json格式.当我们需要post json格式数据的时候,怎么办呢,只需要添加修改两处小地方即可. 详见如下代码: i
Python异步爬虫多线程与线程池示例详解

目录背景异步爬虫方式多线程,多进程(不建议) 线程池,进程池(适当使用) 单线程+异步协程(推荐) 多线程线程池背景当对多个url发送请求时,只有请求完第一个url才会接着请求第二个url(requests是一个阻塞的操作),存在等待的时间,这样效率是很低的.那我们能不能在发送请求等待的时候,为其单独开启进程或者线程,继续请求下一个url,执行并行请求异步爬虫方式多线程,多进程(不建议) 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步会执行弊端:不能无限制开
Python网络爬虫之爬取微博热搜

微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6 1.分析网页的源代码:右键--查看网页源代码. 从网页代码中可以获取到信息 (1)热搜的名字都在<td class="td-02">的子节点<a>里 (2)热搜的排名都在<td class=td-01 ranktop>的里(注意置顶微博是
Python趣味爬虫之爬取爱奇艺热门电影

一.首先我们要找到目标找到目标先分析一下网页很幸运这个只有一个网页,不需要翻页. 二.F12查看网页源代码找到目标,分析如何获取需要的数据.找到href与电影名称三.进行代码实现,获取想要资源. ''' 操作步骤 1,获取到url内容 2,css选择其选择内容 3,保存自己需要数据 ''' #导入爬虫需要的包 import requests from bs4 import BeautifulSoup #requests与BeautifulSoup用来解析网页的 import time #设
Python爬虫库urllib的使用教程详解

目录 Python urllib库 urllib.request模块 urlopen函数 Request 类 urllib.error模块 URLError 示例 HTTPError示例 URLError和HTTPError混合使用 urllib.parse模块 urlparse() urlunparse() urlsplit() urljoin() URL 转码编码quote(string) 编码urlencode() 解码 unquote(string) urllib.robotparse
基于Python的Post请求数据爬取的方法详解

为什么做这个和同学聊天,他想爬取一个网站的post请求观察该网站的post请求参数有两种类型:(1)参数体放在了query中,即url拼接参数(2)body中要加入一个空的json对象,关于为什么要加入空的json对象,猜测原因为反爬虫.既有query参数又有空对象体的body参数是一件脑洞很大的事情. 一开始先在apizza网站上了做了相关实验才发现上面这个规律的,并发现该网站的请求参数要为raw形式,要是直接写代码找规律不是一件容易的事情. 源码 import requests im
Python 爬取网页图片详解流程

简介快乐在满足中求,烦恼多从欲中来记录程序的点点滴滴. 输入一个网址从这个网址中解析出图片,并将它保存在本地流程图程序分析解析主网址 def get_urls(): url = 'http://www.nipic.com/show/35350678.html' # 主网址 pattern = "(http.*?jpg)" header = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKi
python爬虫之BeautifulSoup 使用select方法详解

本文介绍了python爬虫之BeautifulSoup 使用select方法详解 ,分享给大家.具体如下: <html><head><title>The Dormouse's story</title></head> <body> <p class="title" name="dromouse"><b>The Dormouse's story</b></
python中requests库session对象的妙用详解

在进行接口测试的时候,我们会调用多个接口发出多个请求,在这些请求中有时候需要保持一些共用的数据,例如cookies信息. 妙用1 requests库的session对象能够帮我们跨请求保持某些参数,也会在同一个session实例发出的所有请求之间保持cookies. 举个栗子,跨请求保持cookies,在命令行上输入下面命令: # 创建一个session对象 s = requests.Session() # 用session对象发出get请求,设置cookies s.get('http://ht

Python Requests爬虫之求取关键词页面详解

目录

需求:爬取搜狗首页的页面数据

使用UA伪装 求取关键词页面

总结

相关推荐

随机推荐

使用UA伪装求取关键词页面