Python爬虫教程使用Scrapy框架爬取小说代码示例

2025-04-27 12:26:17

Scrapy框架简单介绍

Scrapy框架是一个基于Twisted的异步处理框架，是纯Python实现的爬虫框架，是提取结构性数据而编写的应用框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，我们只需要少量的代码就能够快速抓取数据。

其框架如下图所示：

Scrapy Engine是整个框架的核心，而涉及到我们编写代码的模块一般只有Item Pipeline模块和Spiders模块。

创建Scrapy项目

首先我们通过以下代码来创建Scrapy项目，执行代码如下图所示：

Scrapy startproject Fiction

运行结果如下图所示：

通过上图可知，我们在C盘创建了一个新的Scrapy项目，项目名为Fiction，而且还提示我们可以通过以下命令创建第一个Spider爬虫，命令如下所示：

cd Fiction          #进入目录
scrapy genspider example example.com    #创建spider爬虫

其中example是我们爬虫名，example.com是爬虫爬取的范围，也就是网站的域名。

Fiction文件夹内容如下图所示：

创建Spider爬虫

在上面的步骤我们成功创建了一个Scrapy项目，而且知道如何创建Spider爬虫，接下来我们创建名为fiction的Spider爬虫，其域名为www.17k.com，代码如下所示：

scrapy genspider fiction www.17k.com

运行后，spiders文件夹中多了我们刚才创建fiction.py，这个就是我们创建的Spider爬虫。

如下图所示：

看到这么多py文件是不是慌了，其实不用慌，一般情况我们主要在刚创建的spider爬虫文件、items.py和pipelines.py进行编写代码，其中：

fiction.py：主要编写代码定义爬取的逻辑，解析响应并生成提取结果和新的请求；
items.py：主要先定义好爬取数据的字段，避免拼写错误或者定义字段错误，当然我们可以不先定义好字段，而在fiction.py中直接定义；
pipelines.py：主要是编写数据清洗、验证和存储数据的代码，当我们把数据存储在csv、xml、pickle、marshal、json等文件时，就不需要在pipelines.py中编写代码了，只需要执行以下代码即可：

scrapy crawl fiction 文件名.后缀

当数据需要保存在MongoDB数据库时，则编写以下代码即可：

from pymongo import  MongoClient
client=MongoClient()
collection=client["Fiction"]["fiction"]
class Test1Pipeline:
    def process_item(self, item, spider):
        collection.insert(item)
        return item

Spider爬虫提取数据

在提取数据前，首先我们进入要爬取小说网站并打开开发者工具，如下图所示：

我们通过上图可以发现，<dl class="Volume">存放着我们所有小说章节名，点击该章节就可以跳转到对应的章节页面，所以可以使用Xpath来通过这个div作为我们的xpath爬取范围，通过for循环来遍历获取每个章节的名和URL链接。

跳转章节内容页面后，打开开发者工具，如下图所示：

通过上图可以发现，小说内容存储在<div class="readAreaBox">里面，我们可以通过for循环来遍历该dl中的<div class="p">获取到章节的全部内容，当然也是通过使用Xpath来获取。

items.py代码定义字段

细心的小伙伴就发现了，我们所需要提前的字段有章节名、章节URL链接和章节内容，其中章节名和章节内容是需要进行数据保存的，所以可以先在items.py文件中定义好字段名，具体代码如下所示：

import scrapy
class FictionItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    text = scrapy.Field()

定义字段很简单，字段名=scrapy.Field()即可。

对了，在items.py定义好字段有个最好的好处是当我们在获取到数据的时候，使用不同的item来存放不同的数据，在把数据交给pipeline的时候，可以通过isinstance(item,FictionItem)来判断数据属于哪个item，进行不同的数据(item)处理。

定义好字段后，这是我们通过在pipeline.py文件中编写代码，对不同的item数据进行区分，具体代码如下：

from Fiction.items import FictionItem
class FictionPipeline:
    def process_item(self, item, spider):
        if isinstance(item,FictionItem):
            print(item)

当然，在我们爬取的项目中，只需要一个class类，在上面的代码只是为了展示如何判断区分数据属于哪个item。

fiction.py代码提取数据

fiction.py文件也就是我们创建的spider爬虫，打开fiction.py文件，其代码内容如下所示：

import scrapy
class FictionSpider(scrapy.Spider):
    name = 'fiction'
    allowed_domains = ['www.17k.com']
    start_urls = ['http://www.17k.com/']
    def parse(self, response):
        pass

其中：

name是定义此爬虫名称的字符串，每个项目唯一的名字，用来区分不同的Spider，启动爬虫时使用scrapy crawl +该爬虫名字；
allowed_domains是允许爬取的域名，防止爬虫爬到其他网站；
start_urls是最开始爬取的url；
parse()方法是负责解析返回响应、提取数据或进一步生成要处理的请求，注意：不能修改这个方法的名字。

大致了解该文件内容的各个部分后，我们开始提取首页的章节名和章节URL链接，具体代码如下所示：

import scrapy
from Fiction.items import FictionItem
class FictionSpider(scrapy.Spider):
    name = 'fiction'
    allowed_domains = ['www.17k.com']
    start_urls = ['https://www.17k.com/list/2536069.html']
    def parse(self, response):
        html = response.xpath('//dl[@class="Volume"]')
        books = html.xpath('./dd/a')
        for book in books:
            item =FictionItem()
            item['name'] = []
            name = book.xpath('./span/text()').extract()
            for i in name:
                item['name'].append(i.replace('\n', '').replace('\t', ''))
            href = book.xpath('./@href').extract_first()
            href = 'https://www.17k.com' + href
            yield scrapy.Request(url=href, callback=self.parse_detail, meta={'item': item})

首先导入FictionItem，再我们把start_urls链接修改为待会要爬的URL链接，在parse()方法中，使用xpath获取章节名和章节URL链接，通过for循环调用FictionItem()，再把章节名存放在item里面。

通过生成器yield 返回调用scrapy.Request()方法，其中：

url=href：表示下一个爬取的URL链接；
callback：表示指定parse_detail函数作为解析处理；
meta：实现在不同的解析函数中传递数据。

在上一步中我们指定了parse_detail函数作为解析处理，接下来将编写parse_detail函数来获取章节内容，具体代码如下所示：

    def parse_detail(self,response):
        string=""
        item=response.meta['item']
        content=response.xpath('//*[@id="readArea"]/div[1]/div[2]//p/text()').extract()
        for i in content:
            string=string+i+'\n'
        item['text']=string
        yield item

首先我们定义了一个空变量string，在通过response.meta[]来接收item数据，其参数为上一步中的meta={'item': item}的item，接下来获取章节内容，最后将章节内容存储在item['text']中，并通过生成器yield返回数据给引擎。

pipelines.py代码保存数据

章节名和章节内容已经全部获取下来了，接下来我们把获取下来的数据保存为txt文件，具体代码如下所示：

from Fiction.items import FictionItem
import time
class FictionPipeline:
    def open_spider(self, spider):
        print(time.time())
    def process_item(self, item, spider):
        if isinstance(item, FictionItem):
            title = item['name']
            content = item['text']
            with open(f'小说/{title[0]}.txt', 'w', encoding='utf-8')as f:
                f.write(content)
    def close_spider(self, spider):
        print(time.time())

首先我们导入FictionItem、time，在open_spider()和close_spider()方法编写代码调用time.time()来获取爬取的开始时间和结束时间，再在process_item()方法中，把引擎返回的item['name']和item['text']分别存放在title和content中，并通过open打开txt文件，调用write()把章节内容写入在txt文件中。

settings.py代码启动爬虫

在启动爬虫前，我们先要在settings.py文件中启动引擎，启动方式很简单，只要找到下图中的代码，并取消代码的注释即可：

有人可能问：那User-Agent在哪里设置？我们可以在settings.py文件中，设置User-Agent，具体代码如下：

好了，所有代码已经编写完毕了，接下来将启动爬虫了，执行代码如下：

scrapy crawl fiction

启动爬虫后，发现我们控制台里面多了很多log日志数据的输出，这时可以通过在settings.py添加以下代码，就可以屏蔽这些log日志：

LOG_LEVEL="WARNING"

结果展示

好了，scrapy框架爬取小说就讲到这里了，感觉大家的观看！！！

更多关于Python爬虫教程Scrapy框架爬取的资料请关注我们其它相关文章！

零基础写python爬虫之使用Scrapy框架编写爬虫

网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便.使用Scrapy可以很方便的完成网上数据的采集工作,它为我们完成了大量的工作,而不需要自己费大力气去开发. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建项目 (Project):新建一个新的爬虫项目明确目标(Item
Python scrapy爬取小说代码案例详解

scrapy是目前python使用的最广泛的爬虫框架架构图如下解释: Scrapy Engine(引擎): 负责Spider.ItemPipeline.Downloader.Scheduler中间的通讯,信号.数据传递等. Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎. Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Respon
Python scrapy爬取起点中文网小说榜单

一.项目需求爬取排行榜小说的作者,书名,分类以及完结或连载二.项目分析目标url:"https://www.qidian.com/rank/hotsales?style=1&page=1" 通过控制台搜索发现相应信息均存在于html静态网页中,所以此次爬虫难度较低. 通过控制台观察发现,需要的内容都在一个个li列表中,每一个列表代表一本书的内容. 在li中找到所需的内容找到第两页的url "https://www.qidian.com/rank/hotsale
python实现爬虫抓取小说功能示例【抓取金庸小说】

本文实例讲述了python实现爬虫抓取小说功能.分享给大家供大家参考,具体如下: # -*- coding: utf-8 -*- from bs4 import BeautifulSoup from urllib import request import re import os,time #访问url,返回html页面 def get_html(url): req = request.Request(url) req.add_header('User-Agent','Mozilla/5.0'
Python爬虫框架Scrapy基本用法入门教程

本文实例讲述了Python爬虫框架Scrapy基本用法.分享给大家供大家参考,具体如下: Xpath <html> <head> <title>标题</title> </head> <body> <h2>二级标题</h2> <p>爬虫1</p> <p>爬虫2</p> </body> </html> 在上述html代码中,我要获取h2的内容,
Python爬虫教程使用Scrapy框架爬取小说代码示例

目录 Scrapy框架简单介绍创建Scrapy项目创建Spider爬虫 Spider爬虫提取数据 items.py代码定义字段 fiction.py代码提取数据 pipelines.py代码保存数据 settings.py代码启动爬虫结果展示 Scrapy框架简单介绍 Scrapy框架是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,是提取结构性数据而编写的应用框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,我们只需要少量的代码就能够快速抓取数据. 其框架如下图
Python利用Scrapy框架爬取豆瓣电影示例

本文实例讲述了Python利用Scrapy框架爬取豆瓣电影.分享给大家供大家参考,具体如下: 1.概念 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 通过Python包管理工具可以很便捷地对scrapy进行安装,如果在安装中报错提示缺少依赖的包,那就通过pip安装所缺的包 pip install scrapy scrapy的组成结构如下图所示引擎Scrapy Engine,用于中转调度其他部分的信号和数据
Python爬虫实例——scrapy框架爬取拉勾网招聘信息

本文实例为爬取拉勾网上的python相关的职位信息, 这些信息在职位详情页上, 如职位名, 薪资, 公司名等等. 分析思路分析查询结果页在拉勾网搜索框中搜索'python'关键字, 在浏览器地址栏可以看到搜索结果页的url为: 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=', 尝试将?后的参数删除, 发现访问结果相同. 打开Chrome网页调试工具(F12), 分析每条搜索结果
python爬虫正则表达式使用技巧及爬取个人博客的实例讲解

这篇博客是自己<数据挖掘与分析>课程讲到正则表达式爬虫的相关内容,主要简单介绍Python正则表达式爬虫,同时讲述常见的正则表达式分析方法,最后通过实例爬取作者的个人博客网站.希望这篇基础文章对您有所帮助,如果文章中存在错误或不足之处,还请海涵.真的太忙了,太长时间没有写博客了,抱歉~ 一.正则表达式正则表达式(Regular Expression,简称Regex或RE)又称为正规表示法或常规表示法,常常用来检索.替换那些符合某个模式的文本,它首先设定好了一些特殊的字及字符组合,通过组合的&
Python爬虫实现的根据分类爬取豆瓣电影信息功能示例

本文实例讲述了Python爬虫实现的根据分类爬取豆瓣电影信息功能.分享给大家供大家参考,具体如下: 代码的入口: if __name__ == '__main__': main() #! /usr/bin/python3 # -*- coding:utf-8 -*- # author:Sirius.Zhao import json from urllib.parse import quote from urllib.request import urlopen from urllib.reque
Python爬虫实战之虎牙视频爬取附源码

目录知识点开发环境分析目标url 开始代码最开始还是线导入所需模块数据请求获取视频标题以及url地址获取视频id 保存数据调用函数运行代码,得到数据知识点爬虫基本流程 re正则表达式简单使用 requests json数据解析方法视频数据保存开发环境 Python 3.8 Pycharm 爬虫基本思路流程: (重点) [无论任何网站任何数据内容都是按照这个流程去分析] 1.确定需求 (爬取的内容是什么东西?) 都通过开发者工具进行抓包分析分析视频播放url地址是
使用Scrapy框架爬取网页并保存到Mysql的实现

大家好,这一期阿彬给大家分享Scrapy爬虫框架与本地Mysql的使用.今天阿彬爬取的网页是虎扑体育网. (1)打开虎扑体育网,分析一下网页的数据,使用xpath定位元素. (2)在第一部分析网页之后就开始创建一个scrapy爬虫工程,在终端执行以下命令:“scrapy startproject huty(注:‘hpty’是爬虫项目名称)”,得到了下图所示的工程包: (3)进入到“hpty/hpty/spiders”目录下创建一个爬虫文件叫‘“sww”,在终端执行以下命令: “scrapy
python爬虫之利用Selenium+Requests爬取拉勾网

一.前言利用selenium+requests访问页面爬取拉勾网招聘信息二.分析url 观察页面可知,页面数据属于动态加载所以现在我们通过抓包工具,获取数据包观察其url和参数 url="https://www.lagou.com/jobs/positionAjax.json?px=default&needAddtionalResult=false" 参数: city=%E5%8C%97%E4%BA%AC ==>城市 first=true ==>无用 pn=
Python爬虫实战之用selenium爬取某旅游网站

一.selenium实战这里我们只会用到很少的selenium语法,我这里就不补充别的用法了,以实战为目的二.打开艺龙网可以直接点击这里进入:艺龙网这里是主页三.精确目标我们的目标是,鹤壁市,所以我们应该先点击搜索框,然后把北京删掉,替换成鹤壁市,那么怎么通过selenium实现呢? 打开pycharm,新建一个叫做艺龙网的py文件,先导包: from selenium import webdriver import time # 导包 driver = webdriver.Chro
python爬虫构建代理ip池抓取数据库的示例代码

爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检测是否可用,可用保存,通过函数get_proxies可以获得ip,如:{'HTTPS': '106.12.7.54:8118'} 下面放上源代码,并详细注释: import requests from lxml import etree from requests.packages import u