python数据解析BeautifulSoup爬取三国演义章节示例

2025-05-03 17:19:23

数据解析

数据解析就是将爬取到的整个页面中的局部的内容进行提取。python中常用的数据解析方式有以下三种：

bs4（python中独有的）
xpath（推荐，通用型强）
正则

数据解析原理概述：

首先我们知道需要解析（提取）的内容都会在标签之间或者标签对应的属性中进行存储

所以我们需进行指定标签的定位

然后将标签或者标签对应的属性中存储的数据值进行提取（解析）

Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。其只能运用在python语言中

bs4数据解析原理

实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中。而将页面源码数据加载到该对象中有两种方式，一种是将本地得html文档加载，另一种是将互联网上获取的页面源码加载通过

调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取

要使用bs4首先需要先下载对应的包

pip install bs4

pip install -i https://mirrors.aliyun.com/pypi/simple/ lxml

Beautiful Soup用法

提取整个标签数据

进行标签定位常用的几个方法如下

soup.标签名返回的是html中第一次出现的标签

soup.find(标签名) 返回第一次出现的这个标签

soup.find_all(标签名)) 返回符合要求的所有标签

soup.select(标签名) 返回符合要求的所有标签

from bs4 import BeautifulSoup    #导包
html = """
<html lang="en">
    <head>
      <meta charset="utf-8">
      <meta name="theme-color" content="#ffffff">
      <base href="./" rel="external nofollow" ><link rel="stylesheet" href="styles.30d0912c1ece284d8d9a.css" rel="external nofollow" >
    </head>
    <body>
        <div>
            <p>百里守约</p>
        </div>
        <div class="song">
            <p>前程似锦</p>
        </div>
        <div class="song">
            <p>前程似锦2</p>
        </div>
        <div class="ming">  #后面改了名字
            <p>以梦为马</p>
        </div>
        <div class="tang">
            <ul>
                <li><a href='http://123.com' title='qing'>清明时节</a></li>
                <li><a href='http://ws.com' title='qing'>秦时明月</a></li>
                <li><a href='http://xzc.com' title='qing'>汉时关</a></li>
            </ul>
        </div>
      <flink-root></flink-root>
        <script type="text/javascript" src="runtime.0dcf16aad31edd73d8e8.js"></script><script type="text/javascript" src="es2015-polyfills.923637a8e6d276e6f6df.js" nomodule></script><script type="text/javascript" src="polyfills.bb2456cce5322b484b77.js"></script><script type="text/javascript" src="main.8128365baee3dc30e607.js"></script>
    </body>
</html>
"""
#实例化一个BeautifulSoup对象，并且将本地的源码数据加载到该对象中。且使用html.parser进行数据解析
soup = BeautifulSoup(html,'html.parser')
print(soup.meta)      #输出<meta charset="utf-8">
print(soup.p)         #输出<p>百里守约</p>

#find
print(soup.find('div'))  #输出<div><p>百里守约</p></div>
#这里有多个div标签，根据属性定位，因为class为关键字，所以这里加_
print(soup.find('div',class_="song"))   #<p>前程似锦</p>

#find_all
print(soup.find_all('p'))  #[<p>百里守约</p>, <p>前程似锦</p>, <p>前程似锦2</p>, <p>以梦为马</p>]
print(soup.select('.tang'))  #将这个选择器中的所有内容提取
print(soup.select('.tang > ul > li > a')[1])  #返回ul中的li中的所有a标签中的第二个a标签 <a href="http://ws.com" rel="external nofollow"  title="qing">秦时明月</a>

提取标签中的内容和标签的属性值

#获取标签中的内容
print(soup.p.text)      #输出百里守约
print(soup.find('div',class_="ming").text)  #以梦为马
print(soup.find('div',class_="song"))
print(soup.select('.tang   a')[0].text)   #清明时节

#获取标签中的属性值，如a标签中的href值
print(soup.select('.tang   a')[0]['href'])  #http://123.com

案例—爬取三国演义章节及对应的内容

网站如下，网站数据的获取不是通过ajax发送的请求

import requests
from bs4 import BeautifulSoup
url = 'https://so.gushiwen.org/guwen/book_46653FD803893E4F7F702BCF1F7CCE17.aspx'
headers={
    'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Mobile Safari/537.36'
}
pag_content = requests.get(url,headers,timeout=4).text
#print(pag_content)
#提取每章节内容的链接
soup = BeautifulSoup(pag_content,'html.parser')
a_text = soup.select('.bookcont a')     #将其下面的所有a标签提取出来
for i in a_text:
    #获取a标签中的href属性的值
    detail_url = i['href']
    #请求详细内容的url的内容
    detail_content = requests.get(detail_url,headers,timeout=4).text
    soup = BeautifulSoup(detail_content,'html.parser')
    #提取class标签
    class_content = soup.find('div',class_='contson')
    #print(class_content)  #该标签中有很多p标签，返回整个class_content标签
    #print(class_content.text)   #获取其所有的内容
    with open('三国演义.txt','a',encoding='utf-8') as f:
        f.write(i.text+'\r')
        f.write(class_content.text+'\r')
    print(f'爬取{i.text}ok')
print('全部ok')

以上就是python数据解析BeautifulSoup爬取三国演义章节示例的详细内容，更多关于BeautifulSoup爬取三国演义章节的资料请关注我们其它相关文章！

python BeautifulSoup使用方法详解

直接看例子: 复制代码代码如下: #!/usr/bin/python# -*- coding: utf-8 -*-from bs4 import BeautifulSouphtml_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>T
Python利用BeautifulSoup解析Html的方法示例

介绍 Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能.它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序. Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码.你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了.然后,你仅仅需要说明一下原始编码方式就可以了. Beautiful
python 解析html之BeautifulSoup

复制代码代码如下: # coding=utf-8 from BeautifulSoup import BeautifulSoup, Tag, NavigableString from SentenceSpliter import SentenceSpliter from os.path import basename,dirname,isdir,isfile from os import makedirs from shutil import copyfile import io import
Python爬虫beautifulsoup4常用的解析方法总结

摘要如何用beautifulsoup4解析各种情况的网页 beautifulsoup4的使用关于beautifulsoup4,官网已经讲的很详细了,我这里就把一些常用的解析方法做个总结,方便查阅. 装载html文档使用beautifulsoup的第一步是把html文档装载到beautifulsoup中,使其形成一个beautifulsoup对象. import requests from bs4 import BeautifulSoup url = "http://new.qq.com/o
Python HTML解析器BeautifulSoup用法实例详解【爬虫解析器】

本文实例讲述了Python HTML解析器BeautifulSoup用法.分享给大家供大家参考,具体如下: BeautifulSoup简介我们知道,Python拥有出色的内置HTML解析器模块--HTMLParser,然而还有一个功能更为强大的HTML或XML解析工具--BeautifulSoup(美味的汤),它是一个第三方库.简单来说,BeautifulSoup最主要的功能是从网页抓取数据.本文我们来感受一下BeautifulSoup的优雅而强大的功能吧! BeautifulSoup安装 B
python数据解析BeautifulSoup爬取三国演义章节示例

目录数据解析 Beautiful Soup Beautiful Soup用法案例-爬取三国演义章节及对应的内容数据解析数据解析就是将爬取到的整个页面中的局部的内容进行提取.python中常用的数据解析方式有以下三种: bs4(python中独有的) xpath(推荐,通用型强) 正则数据解析原理概述: 首先我们知道需要解析(提取)的内容都会在标签之间或者标签对应的属性中进行存储所以我们需进行指定标签的定位然后将标签或者标签对应的属性中存储的数据值进行提取(解析) Beautiful
Python如何使用BeautifulSoup爬取网页信息

这篇文章主要介绍了Python如何使用BeautifulSoup爬取网页信息,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下简单爬取网页信息的思路一般是 1.查看网页源码 2.抓取网页信息 3.解析网页内容 4.储存到文件现在使用BeautifulSoup解析库来爬取刺猬实习Python岗位薪资情况一.查看网页源码这部分是我们需要的内容,对应的源码为: 分析源码,可以得知: 1.岗位信息列表在<section class="widg
Python利用Scrapy框架爬取豆瓣电影示例

本文实例讲述了Python利用Scrapy框架爬取豆瓣电影.分享给大家供大家参考,具体如下: 1.概念 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 通过Python包管理工具可以很便捷地对scrapy进行安装,如果在安装中报错提示缺少依赖的包,那就通过pip安装所缺的包 pip install scrapy scrapy的组成结构如下图所示引擎Scrapy Engine,用于中转调度其他部分的信号和数据
Python使用Selenium+BeautifulSoup爬取淘宝搜索页

使用Selenium驱动chrome页面,获得淘宝信息并用BeautifulSoup分析得到结果. 使用Selenium时注意页面的加载判断,以及加载超时的异常处理. import json import re from bs4 import BeautifulSoup from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.com
一个月入门Python爬虫学习,轻松爬取大规模数据

Python爬虫为什么受欢迎如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得简单.容易上手. 利用爬虫我们可以获取大量的价值数据,从而获得感性认识中不能得到的信息,比如: 知乎:爬取优质答案,为你筛选出各话题下最优质的内容. 淘宝.京东:抓取商品.评论及销量数据,对各种商品及用户的消费场景进行分析. 安居客.链家:抓取房产买卖及租售信息,分析房价变化趋势.做不同区域的房价分
Python爬取三国演义的实现方法

本文的爬虫教程分为四部: 1.从哪爬 where 2.爬什么 what 3.怎么爬 how 4.爬了之后信息如何保存 save 一.从哪爬三国演义二.爬什么三国演义全文三.怎么爬在Chrome页面打开F12,就可以发现文章内容在节点 <div id="con" class="bookyuanjiao"> 只要找到这个节点,然后把内容写入到一个html文件即可. content = soup.find("div", {&quo
Python爬虫实战之爬取京东商品数据并实实现数据可视化

一.开发工具 Python版本:3.6.4 相关模块: DecryptLogin模块: argparse模块: 以及一些python自带的模块. 二.环境搭建安装Python并添加到环境变量,pip安装需要的相关模块即可. 三.原理简介原理其实挺简单的,首先,我们利用之前开源的DecryptLogin库来实现一下微博的模拟登录操作: '''模拟登录京东''' @staticmethod def login(): lg = login.Login() infos_return, session
python数据分析之将爬取的数据保存为csv格式

目录 csv文件 python的csv模块从csv文件读取内容写入csv文件运用实例数据准备将数据存为字典的形式总结 csv文件一种用逗号分割来实现存储表格数据的文本文件. python的csv模块 python遍历代码: arr = [12, 5, 33, 4, 1] #遍历输出1 for i in range(0, len(arr)): item = arr[i] print(item) #遍历输出2 for item in arr: print(item) #遍历输出3 st
python爬虫之Appium爬取手机App数据及模拟用户手势

目录 Appium 模拟操作屏幕滑动屏幕点击屏幕拖动屏幕拖拽文本输入动作链实战:爬取微博首页信息 Appium 在前文的讲解中,我们学会了如何安装Appium,以及一些基础获取App元素内容的方式.但认真看过前文的读者,肯定在博主获取元素的时候观察到了一个现象. 那就是手机App的内容并不是一次性加载出来的,比如大多数Android手机列表ListView,都是异步加载,也就是你滑动到那个位置,它才会显示出它的内容. 也就是说,我们前面爬取微博首页全部信息的时候,如果你不滑动先加载
Python爬虫小例子——爬取51job发布的工作职位

概述不知从何时起,Python和爬虫就如初恋一般,情不知所起,一往而深,相信很多朋友学习Python,都是从爬虫开始,其实究其原因,不外两方面:其一Python对爬虫的支持度比较好,类库众多.其二Pyhton的语法简单,入门容易.所以两者形影相随,不离不弃,本文主要以一个简单的小例子,简述Python在爬虫方面的简单应用,仅供学习分享使用,如有不足之处,还请指正. 涉及知识点本例主要爬取51job发布的工作职位,用到的知识点如下: 开发环境及工具:主要用到Python3.7 ,IDE为PyC

python数据解析BeautifulSoup爬取三国演义章节示例

目录

数据解析

Beautiful Soup

Beautiful Soup用法

案例—爬取三国演义章节及对应的内容

相关推荐

随机推荐