python3实现网络爬虫之BeautifulSoup使用详解

2025-04-08 07:51:35

这一次我们来了解一下美味的汤--BeautifulSoup，这将是我们以后经常使用的一个库，并且非常的好用。

BeautifuleSoup库的名字取自刘易斯·卡罗尔在《爱丽丝梦游仙境》里的同名诗歌。在故事中，这首歌是素甲鱼唱的。就像它在仙境中的说法一样，BeautifulSoup尝试化平淡为神奇。它通过定位HTML标签来格式化和组织复杂的网络信息，用简单易用的Python对象为我们展现XML结构信息。

由于BeautifulSoup库不是Python标准库，因此我们需要单独安装这个库，才能使用它。对于这个库的安装，我们这里秉着简单的原则，就直接利用pycharm这个IDLE进行库的自动下载和导入。

首先我们进入pycharm的主界面，单击file-〉settings-〉Project：untitled-〉Project Interpreter，如下图：

在上图中我们会看到一个绿色的加号，这时我们单击这个加号，会跳出如下的界面（pycharm在这个地方有时候很慢，会一直在这个界面刷新）：

这时我们在搜索框中输入“bs4”，然后选择列表中的bs4，然后进行安装，如下图：

这样我们就完成了BeautifulSoup这个库的安装，下面我们就可以来使用它了。

关于这个库的官方文档解释的是很详细的，一定要看一看：点击打开链接

下面我就简单说一下这个库的一些方面。

首先呢，我们还是从一个例子开始我们的学习：

#coding:utf - 8
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://tieba.baidu.com/")
bsObj=BeautifulSoup(html,"lxml")  #将html对象转化为BeautifulSoup对象
print(bsObj.title)  #输出这个网页中的标题
执

执行上面的程序，我们会得到的结果为：<title>百度贴吧——全球最大的中文社区</title>
首先我们来分析下bsObj=BeautifulSoup(html,"lxml")这句话对我们的html做了什么，在这句代码中，我们将html对象传入到BeautifulSoup中将它转化成BeautifulSoup对象，关于第二个参数lxml，可以到官方文档中看，解释得很详细，这里大家只要知道带上它就可以了，不需要管它。这样，我们就成功将html对象转化为了BeautifulSoup对象。
下面我们来了解下BeautifulSoup对象的结构，当我们将html转化后得到的结构为：
html-><html><head>....</head><body>.....</body></html>
---head-><head><title>百度贴吧--全球最大的中文社区<title></head>

---title-><title>百度贴吧--全球最大的中文社区</title>

----body->.........

关于这个页面的结构我中间省略了一些无关紧要的元素，只是为了展示下这种层次化的结构。

从上面我们可以看出，BeautifulSoup将html对象进行了层次化处理了，对它的原网页的标签进行了逐层的处理和细化，以便于我们之后使用。也就是我们只要知道，任何HTML（或XML）文件的任意节点信息都可以被提取出来，只要目标信息的旁边或者附近有标记就行了，这个标记就是我们网页中使用到的各种div、li之类的标签元素，也可以是class、id之类的属性，通过这些我们都可以对需要的信息进行提取。

对于刚刚的bsObj.title这个提取标题的操作，由于一个网页中只有一个title，所以我们可以直接获取到它，因为它是唯一的嘛，大家可以这样理解，在一个学校中，你的学号是唯一的，我可以通过直接查找学号进而唯一的搜索你，而不会产生歧义。

对于bsObj.title我们有多重替代方案：

bsObj.html.head.title
bsObj.html.title
bsObj.head.title

关于上面的代码大家是对网页中元素的细化搜索，可以这样理解啊，假定你已经知道一个人是计科院的了，那你搜索他的时候常规思路便是直接在计科院找他，而bsObj.head中的head就相当于计科院，它是网页中的头部，title就放在这里面，所以我们使用bsObj.head.title也可以实现这个效果，其它的代码可以类似分析。

BeautifulSoup是一个对象，所以我们可以通过运算符“.”对它的属性进行提取。

如bsObj.title获取html的标题对象，bsObj.title.name获取标题的名字。。。

这里就先简单介绍这些，后面我们将继续深入说明BeautifulSoup的好的使用方法。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

本文实例讲述了Python3实现爬虫爬取赶集网列表功能.分享给大家供大家参考,具体如下: python3爬虫之爬取赶集网列表.这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手. 首先需要安装python3.如果还没有安装,可参考本站前面关于python3安装与配置相关文章. 首先需要安装request和BeautifulSoup两个模块 request是Python的HTTP网络请求模块,使用Requests可以轻而易举的完成浏览器可有的任何操作 pip insta
python3第三方爬虫库BeautifulSoup4安装教程

Python3安装第三方爬虫库BeautifulSoup4,供大家参考,具体内容如下在做Python3爬虫练习时,从网上找到了一段代码如下: #使用第三方库BeautifulSoup,用于从html或xml中提取数据 from bs4 import BeautifulSoup 自己实践后,发现出现了错误,如下所示: 以上错误提示是说没有发现名为"bs4"的模块.即"bs4"模块未安装. 进入Python安装目录,以作者IDE为例, 控制台提示第三
python3解析库BeautifulSoup4的安装配置与基本用法

前言 Beautiful Soup是python的一个HTML或XML的解析库,我们可以用它来方便的从网页中提取数据,它拥有强大的API和多样的解析方式. Beautiful Soup的三个特点: Beautiful Soup提供一些简单的方法和python式函数,用于浏览,搜索和修改解析树,它是一个工具箱,通过解析文档为用户提供需要抓取的数据 Beautiful Soup自动将转入稳定转换为Unicode编码,输出文档转换为UTF-8编码,不需要考虑编码,除非文档没有指定编码方式,这时只需要指
python3实现网络爬虫之BeautifulSoup使用详解

这一次我们来了解一下美味的汤--BeautifulSoup,这将是我们以后经常使用的一个库,并且非常的好用. BeautifuleSoup库的名字取自刘易斯·卡罗尔在<爱丽丝梦游仙境>里的同名诗歌.在故事中,这首歌是素甲鱼唱的.就像它在仙境中的说法一样,BeautifulSoup尝试化平淡为神奇.它通过定位HTML标签来格式化和组织复杂的网络信息,用简单易用的Python对象为我们展现XML结构信息. 由于BeautifulSoup库不是Python标准库,因此我们需要单独安装这个库,才能使用
Python即时网络爬虫项目启动说明详解

作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心. 我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本很多东西,不得不花费很多时间和精力去移植和升级,至今还有一些隐藏在某处的代码埋着雷.我估计Python也避免不了这个问题(其实这种声音已经不少,比如Python 3 正在毁灭 Python). 但是,我还是启动了这个Python即时网络爬虫项目.我用C++.Java和Javascript编写爬虫相关
win10 + anaconda3 + python3.6 安装tensorflow + keras的步骤详解

初入深度学习,就遇到了困难,一直安装不了tensorflow和keras库!!!真是让人着急!!!在经过无数次尝试,看了无数篇博客之后,终于安装上了.下面是具体的安装步骤. 首先,创建一个新的环境,这个环境适合python3.5使用: conda create -n py35 python=3.5 anaconda 如果在创建过程中出现如下错误 RemoveError: 'setuptools' is a dependency of conda and cannot be removed fro
python3 中使用urllib问题以及urllib详解

今天遇到一个蛮奇怪的问题:当我在控制台中使用 urllib 没问题,但是当我在 vscode 中 .py 文件中导入 urllib 使用时会报错: AttributeError: module 'urllib' has no attribute 'request' 查了一下资料是 python3 的 urllib 不会自动导入其under层的包,需要手动导入. import urllib import urllib.parse import urllib.request 再次使用即可成功. ur
Python中BeautifulSoup模块详解

目录前言安装库导入库解析文档示例提取数据示例 CSS选择器实例小项目总结前言 BeautifulSoup是主要以解析web网页的Python模块,它会提供一些强大的解释器,以解析网页,然后提供一些函数,从页面中提取所需要的数据,目前是Python爬虫中最常用的模块之一. 安装库在使用前需要安装库,这里建议安装bs4,也就是第四版本,因为根据官方文档第三版的已经停止更新.同时安装lxml解释器 pip3 install bs4 pip3 install lxml 导入库 from
Python爬虫之urllib库详解

目录一.说明: 二.urllib四个模块组成: 三.urllib.request 1.urlopen函数 2.response 响应类型 3.Request对象 4.高级请求方式四.urllib.error 五.URL解析urllib.parse 六.urllib.robotparser 总结一.说明: urllib库是python内置的一个http请求库,requests库就是基于该库开发出来的,虽然requests库使用更方便,但作为最最基本的请求库,了解一下原理和用法还是很有必要的.
微信小程序之网络请求简单封装实例详解

微信小程序之网络请求简单封装实例详解在微信小程序中实现网络请求相对于Android来说感觉简单很多,我们只需要使用其提供的API就可以解决网络请求问题. 普通HTTPS请求(wx.request) 上传文件(wx.uploadFile) 下载文件(wx.downloadFile) WebSocket通信(wx.connectSocket) 为了数据安全,微信小程序网络请求只支持https,当然各个参数的含义就不在细说,不熟悉的话可以:可以去阅读官方文档的网络请求api,当我们使用request
Android 网络请求框架Volley实例详解

Android 网络请求框架Volley实例详解首先上效果图 Logcat日志信息on Reponse Volley特别适合数据量不大但是通信频繁的场景,像文件上传下载不适合! 首先第一步用到的RequetQueue RequestQueue.Java RequestQueue请求队列首先得先说一下,ReuqestQueue是如何对请求进行管理的...RequestQueue是对所有的请求进行保存...然后通过自身的start()方法开启一个CacheDispatcher线程用于缓存调度,开
python爬虫使用cookie登录详解

前言: 什么是cookie? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在用户本地终端上的数据(通常经过加密). 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的.那么我们可以利用Urllib库保存我们登录的Cookie,然后再抓取其他页面,这样就达到了我们的目的. 一.Urllib库简介 Urllib是python内置的HTTP请求库,官方地址:https://docs.python.org/3/library/urllib.ht
对python3 一组数值的归一化处理方法详解

1.什么是归一化: 归一化就是把一组数(大于1)化为以1为最大值,0为最小值,其余数据按百分比计算的方法.如:1,2,3.,那归一化后就是:0,0.5,1 2.归一化步骤: 如:2,4,6 (1)找出一组数里的最小值和最大值,然后就算最大值和最小值的差值 min = 2: max = 6: r = max - min = 4 (2)数组中每个数都减去最小值 2,4,6 变成 0,2,4 (3)再除去差值r 0,2,4 变成 0,0.5,1 就得出归一化后的数组了 3.用python 把一个矩阵中

python3实现网络爬虫之BeautifulSoup使用详解

相关推荐

随机推荐