Python爬虫基础之requestes模块

2025-04-01 20:03:36

一、爬虫的流程

开始学习爬虫，我们必须了解爬虫的流程框架。在我看来爬虫的流程大概就是三步，即不论我们爬取的是什么数据，总是可以把爬虫的流程归纳总结为这三步：

1.指定 url,可以简单的理解为指定要爬取的网址

2.发送请求。requests 模块的请求一般为 get 和 post

3.将爬取的数据存储

二、requests模块的导入

因为 requests 模块属于外部库，所以需要我们自己导入库

导入的步骤：

1.右键Windows图标

2.点击“运行”

3.输入“cmd”打开命令面板

4.输入“pip install requests”,等待下载完成

如图：

如果还是下载失败，我的建议是百度一下，你就知道（我也是边学边写，是在是水平有限）

欧克，既然导入成功后我们就简单的来爬取一下搜狗的首页吧！

三、完整代码

import requests

if __name__ == "__main__":
    # 指定url
    url = "https://www.sougou.com/"

    # 发起请求
    # get方法会返回一个响应数据
    response = requests.get(url)

    # 获取响应数据
    page_txt = response.text # text返回一个字符串的响应数据
    # print(page_txt)

    # 存储
    with open("./sougou.html", "w", encoding = "utf-8") as fp:
        fp.write(page_txt)

    print("爬取数据结束！！！")

我们打开保存的文件，如图

欧克，这就是最基本的爬取，如果学会了，那就试一试爬取 B站的首页吧。

到此这篇关于Python爬虫基础之requestes模块的文章就介绍到这了,更多相关Python requestes模块内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

python爬虫框架feapde的使用简介

1. 前言大家好,我是安果! 众所周知,Python 最流行的爬虫框架是 Scrapy,它主要用于爬取网站结构性数据今天推荐一款更加简单.轻量级,且功能强大的爬虫框架:feapder 项目地址: https://github.com/Boris-code/feapder 2. 介绍及安装和 Scrapy 类似,feapder 支持轻量级爬虫.分布式爬虫.批次爬虫.爬虫报警机制等功能内置的 3 种爬虫如下: AirSpider 轻量级爬虫,适合简单场景.数据量少的爬虫 Spider 分布式
python爬虫基础之简易网页搜集器

简易网页搜集器前面我们已经学会了简单爬取浏览器页面的爬虫.但事实上我们的需求当然不是爬取搜狗首页或是B站首页这么简单,再不济,我们都希望可以爬取某个特定的有信息的页面. 不知道在学会了爬取之后,你有没有跟我一样试着去爬取一些搜索页面,比如说百度.像这样的页面注意我红笔划的部分,这是我打开的网页.现在我希望能爬取这一页的数据,按我们前面学的代码,应该是这样写的: import requests if __name__ == "__main__": # 指定URL url = &quo
利用Python网络爬虫爬取各大音乐评论的代码

python爬虫--爬取网易云音乐评论方1:使用selenium模块,简单粗暴.但是虽然方便但是缺点也是很明显,运行慢等等等. 方2:常规思路:直接去请求服务器 1.简易看出评论是动态加载的,一定是ajax方式. 2.通过网络抓包,可以找出评论请求的的URL 得到请求的URL 3.去查看post请求所上传的数据显然是经过加密的,现在就需要按着网易的思路去解读加密过程,然后进行模拟加密. 4.首先去查看请求是经过那些js到达服务器的 5.设置断点:依次对所发送的内容进行观察,找到评论对应的UR
Python爬虫之教你利用Scrapy爬取图片

Scrapy下载图片项目介绍 Scrapy是一个适用爬取网站数据.提取结构性数据的应用程序框架,它可以通过定制化的修改来满足不同的爬虫需求. 使用Scrapy下载图片项目创建首先在终端创建项目 # win4000为项目名 $ scrapy startproject win4000 该命令将创建下述项目目录. 项目预览查看项目目录 win4000 win4000 spiders __init__.py __init__.py items.py middlewares.py pipelines
Python爬虫之爬取2020女团选秀数据

一.先看结果 1.1创造营2020撑腰榜前三甲创造营2020撑腰榜前三名分别是希林娜依·高.陈卓璇 .郑乃馨 >>>df1[df1['排名']<=3 ][['排名','姓名','身高','体重','生日','出生地']] 排名姓名身高体重生日出生地 0 1.0 希林娜依·高 NaN NaN 1998年07月31日新疆 1 2.0 陈卓璇 168.0 42.0 1997年08月13日贵州 2 3.0 郑乃馨 NaN NaN 1997年06月25日泰国 1.2青春有
python爬虫之生活常识解答机器人

一.前言今天教大家如何用Python爬虫去搭建一个「生活常识解答」机器人. 思路:这个机器人主要是依托于"阿里达摩院发布的语言模型PLUG",通过爬虫的方式,发送post请求(提问),然后返回json数据(回答) 二.问答平台这个「生活常识解答」机器人采用的是:阿里达摩院发布的语言模型PLUG(最近刚发布的,目前是测试阶段) 该模型参数规模达270亿,采用1TB以上高质量中文文本训练数据,包括了新闻.小说.诗歌.常识问答等类型. 三.原页面效果这里是需要登录阿里云账号,登录之后可
基于python分布式爬虫并解决假死的问题

python版本:3.5.4 系统:win10 x64 通过网页下载视频方法一:使用urllib.retrieve函数放函数只需要两个参数即可下载相应内容到本地,一个是网址,一个是保存位置 import urllib.request url = 'http://xxx.com/xxx.mp4' file = 'xxx.mp4' urllib.request.retrieve(url, file) 但是博主在使用过程中发现,该函数没有timeout方法.使用时,可能由于网络问题导致假死! 方法
python爬虫之利用Selenium+Requests爬取拉勾网

一.前言利用selenium+requests访问页面爬取拉勾网招聘信息二.分析url 观察页面可知,页面数据属于动态加载所以现在我们通过抓包工具,获取数据包观察其url和参数 url="https://www.lagou.com/jobs/positionAjax.json?px=default&needAddtionalResult=false" 参数: city=%E5%8C%97%E4%BA%AC ==>城市 first=true ==>无用 pn=
python爬虫之利用selenium模块自动登录CSDN

一.页面分析 CSDN登录页面如下图二.引入selenium模块及驱动 2.1 并将安装好的Chromedriver.exe引入到代码中 # -*- coding:utf-8 -*- from selenium import webdriver import os import time #引入chromedriver.exe chromedriver="C:/Users/lex/AppData/Local/Google/Chrome/Application/chromedriver.exe&
python爬虫之爬取笔趣阁小说

前言为了上班摸鱼方便,今天自己写了个爬取笔趣阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 一.首先导入相关的模块 import os import requests from bs4 import BeautifulSoup 二.向网站发送请求并获取网站数据网站链接最后的一位数字为一本书的id值,一个数字对应一本小说,我们以id为1的小说为示例. 进入到网站之后,我们发现有一个章节列表,那么我们首先完成对小说列表名称的抓取 # 声明请求头 headers = { 'Use
python PyQt5 爬虫实现代码

搞一个图形化界面还是挺酷的,是吧安装库什么的应该不用多说了吧.. 一般来说会让你把 designer.exe(编辑图形化界面的东西,跟vb差不多) 当作外部工具导入到 pycharm 界面里(这里不写了),其实就是打开方便点,不做也没什么关系,没有非要从pycharm打开,界面是这样的: 还要导入一个PyUIC 工具包,这个东西好像还是导入比较好,(写文件目录的时候可能由于安装的问题找不到那个文件,我刚开始也没找到,还不如直接在C盘搜索那个东西来的直接)不然挺麻烦的.UIC 是用来把你做的图形

Python爬虫基础之requestes模块

一、爬虫的流程

二、requests模块的导入

三、完整代码

相关推荐

随机推荐