基于pycharm的beautifulsoup4库使用方法教程

2025-02-17 05:09:32

1.beautifulsoup4库安装

第一步：在控制台输入如下命令，安装beautifulsoup4库。

pip install beautifulsoup4

第二步：在控制台输入如下命令，验证是否成功安装beautifulsoup4库。

第三步：在pycharm中，点击file——settings——project——python interpreter——点击+号——搜索beautifulsoup4——install package！

这样就可以在.py文件中导入模块了！

2.beautifulsoup4库使用

import requests
# 虽然库名叫做beautiful4 但是在导入时 使用的是其缩写bs4 其中BeautifulSoup是一个类名
from bs4 import BeautifulSoup

url = 'https://www.baidu.com/s?'
# 由于一般网站都是供用户访问 如果检测到User-Agent是黑客或者其他可能拒绝访问 故此处模拟浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
# 以防乱码 此处将其编码设置为utf-8 因为有中文
response.encoding = 'utf-8'
# print(response.text)
# 使用的解析器是html.parser 注意是.奥
soup = BeautifulSoup(response.text, 'html.parser')
# 打印解析后的结果
print(soup.prettify())

需要讲解的都在代码注释中了奥！

3.beautifulsoup4库基本元素

beautifulsoup4库是解析、遍历、维护“标签树”的功能库。

首先来看BeautifulSoup库解析器，前两个比较常用！

再来看BeautifulSoup库的基本元素，可以这样理解，标签树和HTML以及BeautifulSoup是一样的，我们要看HTML的某些内容就使用BeautifulSoup的实例化对象查看即可。

在上述代码的基础上，增加如下几行，结合基本元素的使用，可得到如图所示。

需要注意的是，.string可以跨标签，所以很有可能结果也为注释，为了区分是标签内的字符串还是注释，可以通过打印类型来判断。

总结起来，可如下：

接下来，看一下BeautifulSoup库的遍历，其中画红框的迭代遍历，可以用于for in循环中。

4.beautifulsoup4库的HTML查找方法

find_all( name , attrs , recursive , string , **kwargs )

find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。

name 参数可以对名字为 name 的标签进行检索。

attrs参数可以对标签属性值为attrs的标签进行检索。

recursive参数表示是否对子孙全部检索，默认是TRUE，如果只想搜索当前节点的儿子信息，可以置其为FALSE。

string 参数可以标签中的字符串内容进行检索。

5.补充Json（Javascript Object Notation）

我们学过js的或者java的，应该对Json不陌生吧！

Json是一种有类型的键值对！

需要注意的是，键和值都需要用"“括起来，如果值是整数，则可以不用”"！

如果值是多值，则可以用[,]；如果值是键值对，则可以用{:,:,}，可以嵌套使用。

JSON一般用于接口，而YAML是无类型键值对，一般用于配置文件。

到此这篇关于基于pycharm的beautifulsoup4库使用方法教程的文章就介绍到这了,更多相关pycharm的beautifulsoup4库使用内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

如何在Pycharm中制作自己的爬虫代码模板

目录写作背景爬虫代码在 Pycharm 中设置代码模板写作背景最近本菜鸡有几个网站想要爬,每个爬虫的代码不一样,但有某种联系,可以抽出一部分通用的代码制成模板,减少代码工作量,于是就有了这篇文章. 如果觉得我这篇文章写的好的话,能不能给我点个赞 ,评论 .收藏一条龙(☆▽☆).如果要点个关注的话也不是不可以. 如果有什么问题,还请各位大佬提出,不胜感激. 爬虫代码我的爬虫代码都是使用的自己写的多线程. 因为我的代码能力很差,所以如果代码有哪里让各位大佬倍感不适,请
pycharm 终端部启用虚拟环境详情

新建项目时,选择新建虚拟环境项目打开后,启动终端,却经常发现,并没有开启虚拟环境,导致一些包都被安装到全局环境中. 一种解决办法是手动开启虚拟环境如果开启出错,如"禁止脚本运行"或者不识别命令等,就以管理员分身打开 powershell,然后运行如下命令 set-executionpolicy remotesigned 设置为 "y" 即可但是这时候,如果想通过命令关闭虚拟环境发现经常没有效果,还需要手动关闭终端,再打开,才会关闭虚拟环境各种原因没有细究
python爬虫学习笔记--BeautifulSoup4库的使用详解

目录使用范例常用的对象–Tag 常用的对象–NavigableString 常用的对象–BeautifulSoup 常用的对象–Comment 对文档树的遍历 tag中包含多个字符串的情况 .stripped_strings 去除空白内容搜索文档树–find和find_all select方法(各种查找) 获取内容总结使用范例 from bs4 import BeautifulSoup #创建 Beautiful Soup 对象 # 使用lxml来进行解析 soup = Beautif
使用BeautifulSoup4解析XML的方法小结

Beautiful Soup 是一个用来从HTML或XML文件中提取数据的Python库,它利用大家所喜欢的解析器提供了许多惯用方法用来对文档树进行导航.查找和修改. 帮助文档英文版:https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 帮助文档中文版:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 入门示例以下是电影<爱丽丝梦游仙境>中的一段HTML内容: 我们以此为
基于pycharm的beautifulsoup4库使用方法教程

1.beautifulsoup4库安装第一步:在控制台输入如下命令,安装beautifulsoup4库. pip install beautifulsoup4 第二步:在控制台输入如下命令,验证是否成功安装beautifulsoup4库. 第三步:在pycharm中,点击file——settings——project——python interpreter——点击+号——搜索beautifulsoup4——install package! 这样就可以在.py文件中导入模块了! 2.beauti
解析pip安装第三方库但PyCharm中却无法识别的问题及PyCharm安装第三方库的方法教程

一.问题具体描述: 在cmd控制台 pip install xxxx 后并显示安装成功后,并且尝试用cmd 的python 中import xxxx ,没有显示异常,说明这个库是安装成功了的.(这里以安装 virtualenv 为例:) 但是在PyCharm中导库时却出现了问题,会显示该模块不存在!!!(即在一个项目文件中,import一个未安装的第三方库文件,PyCharm会显示波浪线,即表示此库未安装.) 那怎么解呢?下面就来简单分析一下. 之前有问老师这个问题,老师说这是PyCharm这个
详解基于pycharm的requests库使用教程

目录 requests库安装和导入 requests库的get请求 requests库的post请求 requests库的代理 requests库的cookie 自动识别验证码 requests库安装和导入第一步:cmd打开命令行,使用如下命令安装requests库. pip install requests 由于我的安装过了,所以如下: 如果提示你pip版本需要更新,按照提示的指令输入即可更新. 第二步:cmd使用如下命令,验证requests库安装完成. pip list 第三步:在pyc
Python基于域相关实现图像增强的方法教程

目录介绍昆虫增强使用针的增强实验结果介绍当在图像上训练深度神经网络模型时,通过对由数据增强生成的更多图像进行训练,可以使模型更好地泛化.常用的增强包括水平和垂直翻转/移位.以一定角度和方向(顺时针/逆时针)随机旋转.亮度.饱和度.对比度和缩放增强. Python中一个非常流行的图像增强库是albumentations(https://albumentations.ai/),通过直观的函数和优秀的文档,可以轻松地增强图像.它也可以与PyTorch和TensorFlow等流行的深度学习框
Pycharm安装python库的方法

Pycharm版本:2020.1 安装numpy等python库的方法: 1.打开File-Setting-Project untitled-Python Interpreter 2.点击左上角的+号 3.在搜索栏搜索需要的python依赖库,点击左下角的Install Package即可安装到此这篇关于Pycharm安装python库的方法的文章就介绍到这了,更多相关Pycharm安装python库内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
利用dep代替go get获取私有库的方法教程

前言 go get 用来动态获取远程代码包的,目前支持的有BitBucket.GitHub.Google Code和Launchpad.这个命令在内部实际上分成了两步操作:第一步是下载源码包,第二步是执行go install.下载源码包的go工具会自动根据不同的域名调用不同的源码工具,对应关系如下: BitBucket (Mercurial Git) GitHub (Git) Google Code Project Hosting (Git, Mercurial, Subversion) Lau
PHP基于新浪IP库获取IP详细地址的方法

本文实例讲述了PHP基于新浪IP库获取IP详细地址的方法.分享给大家供大家参考,具体如下: <?php class Tool{ /** * 获取IP的归属地( 新浪IP库 ) * * @param $ip String IP地址:112.65.102.16 * @return Array */ static public function getIpCity($ip) { $ip = preg_replace("/\s/","",preg_replace(&q
PHP7扩展开发之基于函数方式使用lib库的方法详解

本文实例讲述了PHP7扩展开发之基于函数方式使用lib库的方法.分享给大家供大家参考,具体如下: 前言首先说下什么是lib库.lib库就是一个提供特定功能的一个文件.可以把它看成是PHP的一个文件,这个文件提供一些函数方法.只是这个lib库是用c或者c++写的. 使用lib库的场景.一些软件已经提供了lib库,我们就没必要再重复实现一次.如,原先的mysql扩展,就是使用mysql官方的lib库进行的封装. 在本文,我们将建立一个简单的lib库,并在扩展中进行封装调用. 代码基础代码这个扩
PyCharm安装第三方库如Requests的图文教程

PyCharm安装第三方库是十分方便的,无需pip或其他工具,平台就自带了这个功能而且操作十分简便.如下: [注]:本人PyCharm已汉化,若是英文版按括号中英文指示操作即可. 1. 打开软件,点击左上角"文件(File)"->"设置(setting)": 2. 选择弹出界面左上角的"项目(Project): PyCharm_Demo"->"project Interpreter": 3. 点击右上方"
基于Oracle多库查询方法(分享)

本文简述了通过创建database link实现ORACLE跨数据库查询的方法 1.配置本地数据库服务器的tnsnames.ora文件 $vi $ORACLE_HOME/network/admin/tnsnames.ora 添加如下行,其中DBLINK为连接名(可自定义),HOST和PORT为数据库侦听的IP及端口,SERVICE_NAME为数据库的SID, MEDIADBLINK = (DESCRIPTION = (ADDRESS_LIST = (ADDRESS = (PROTOCOL = T