python中bs4.BeautifulSoup的基本用法
导入模块
from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc,"html.parser")
下面看下常见的用法
print(soup.a) # 拿到soup中的第一个a标签 print(soup.a.name) # 获取a标签的名称 print(soup.a.string) # 获取a标签的文本内容 print(soup.a.text) # 获取a标签的文本内容 print(soup.a["href"]) # 获取a标签的href属性的值 print(soup.a.get("href")) # 查找第一个a标签的href的属性 print(soup.a.attrs) # 获取a标签的所有的属性,返回一个字典 print(soup.find("a")) # 查找第一个a标签 print(soup.find_all("a")) # 查找所有的a标签 print(soup.find_all(id="a1")) # 查找所有的的id为a1的标签 print(soup.find_all(class_="sistex")) # 这里需要注意,如果需要通过class去查找,则需要一个下划线 print(soup.find_all(["a","p","br"])) # 查找所有的啊标签,p标签和br标签 soup.find("a").attrs["class"] = "2b" # 修改某个标签的属性值 del soup.find(id="a1").attrs["class"] # 删除某个标签的class属性
import re soup.find(re.compile("b")) # 标签中有b这个字符的标签 soup.select("a.syster") # 这个可以放标签选择器 soup.select(".syster .abcd") # 这个可以放标签选择器 soup.find("a").decompose() # 从当前字符串中删除第一个a标签,是在原位置进行删除
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。
相关推荐
-
python 3利用BeautifulSoup抓取div标签的方法示例
前言 本文主要介绍的是关于python 3用BeautifulSoup抓取div标签的方法示例,分享出来供大家参考学习,下面来看看详细的介绍: 示例代码: # -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 import BeautifulSoup import urllib.request import re #如果是网址,可以用这个办法来读取网页 #h
-
python爬虫之BeautifulSoup 使用select方法详解
本文介绍了python爬虫之BeautifulSoup 使用select方法详解 ,分享给大家.具体如下: <html><head><title>The Dormouse's story</title></head> <body> <p class="title" name="dromouse"><b>The Dormouse's story</b></
-
python3第三方爬虫库BeautifulSoup4安装教程
Python3安装第三方爬虫库BeautifulSoup4,供大家参考,具体内容如下 在做Python3爬虫练习时,从网上找到了一段代码如下: #使用第三方库BeautifulSoup,用于从html或xml中提取数据 from bs4 import BeautifulSoup 自己实践后,发现出现了错误,如下所示: 以上错误提示是说没有发现名为"bs4"的模块.即"bs4"模块未安装. 进入Python安装目录,以作者IDE为例, 控制台提示第三
-
python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比
前言 还有一年多就要毕业了,不准备考研的我要着手准备找实习及工作了,所以一直没有更新. 因为Python是自学不久,发现很久不用的话以前学过的很多方法就忘了,今天打算使用简单的BeautifulSoup和一点正则表达式的方法来爬一下top100电影,当然,我们并不仅是使用爬虫爬取数据,这样的话,数据中存在很多的对人有用的信息则被忽略了.所以,爬取数据只是开头,对这些数据根据意愿进行分析,或许能有额外的收获. 注:本人还是Python菜鸟,若有错误欢迎指正 本次我们爬取时光网(http://www
-
Python爬虫beautifulsoup4常用的解析方法总结
摘要 如何用beautifulsoup4解析各种情况的网页 beautifulsoup4的使用 关于beautifulsoup4,官网已经讲的很详细了,我这里就把一些常用的解析方法做个总结,方便查阅. 装载html文档 使用beautifulsoup的第一步是把html文档装载到beautifulsoup中,使其形成一个beautifulsoup对象. import requests from bs4 import BeautifulSoup url = "http://new.qq.com/o
-
Python HTML解析器BeautifulSoup用法实例详解【爬虫解析器】
本文实例讲述了Python HTML解析器BeautifulSoup用法.分享给大家供大家参考,具体如下: BeautifulSoup简介 我们知道,Python拥有出色的内置HTML解析器模块--HTMLParser,然而还有一个功能更为强大的HTML或XML解析工具--BeautifulSoup(美味的汤),它是一个第三方库.简单来说,BeautifulSoup最主要的功能是从网页抓取数据.本文我们来感受一下BeautifulSoup的优雅而强大的功能吧! BeautifulSoup安装 B
-
Python获取基金网站网页内容、使用BeautifulSoup库分析html操作示例
本文实例讲述了Python获取基金网站网页内容.使用BeautifulSoup库分析html操作.分享给大家供大家参考,具体如下: 利用 urllib包 获取网页内容 #引入包 from urllib.request import urlopen response = urlopen("http://fund.eastmoney.com/fund.html") html = response.read(); #这个网页编码是gb2312 #print(html.decode("
-
python中bs4.BeautifulSoup的基本用法
导入模块 from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc,"html.parser") 下面看下常见的用法 print(soup.a) # 拿到soup中的第一个a标签 print(soup.a.name) # 获取a标签的名称 print(soup.a.string) # 获取a标签的文本内容 print(soup.a.text) # 获取a标签的文本内容 print(soup.a["href"
-
python 中的 BeautifulSoup 网页使用方法解析
目录 一.安装 二.html.parser解析 三.外部文档解析 四.标签选择器 五.css选择器 六.节点遍历 七.find_all方法 八.find方法 一.安装 Bautiful Soup 是第三方库,因此需要单独下载,下载方式非常简单 由于 BS4 解析页面时需要依赖文档解析器,所以还需要安装 lxml 作为解析库 Python 也自带了一个文档解析库 html.parser, 但是其解析速度要稍慢于 lxml pip install bs4 pip install lxml pip i
-
Python中的is和id用法分析
本文实例讲述了Python中的is和id用法.分享给大家供大家参考.具体分析如下: (ob1 is ob2) 等价于 (id(ob1) == id(ob2)) 首先id函数可以获得对象的内存地址,如果两个对象的内存地址是一样的,那么这两个对象肯定是一个对象.和is是等价的.Python源代码为证. 复制代码 代码如下: static PyObject * cmp_outcome(int op, register PyObject *v, register PyObject *w) { int
-
python中enumerate函数遍历元素用法分析
本文实例讲述了python中enumerate函数遍历元素用法.分享给大家供大家参考,具体如下: enumerate函数用于遍历序列中的元素以及它们的下标 示例代码如下: i = 0 seq = ['one', 'two', 'three'] for element in seq: print i, seq[i] i += 1 #0 one #1 two #2 three print '============' seq = ['one', 'two', 'three'] for i, elem
-
python中迭代器(iterator)用法实例分析
本文实例讲述了python中迭代器(iterator)用法.分享给大家供大家参考.具体如下: #--------------------------------------- # Name: iterators.py # Author: Kevin Harris # Last Modified: 03/11/04 # Description: This Python script demonstrates how to use iterators. #----------------------
-
Python中threading模块join函数用法实例分析
本文实例讲述了Python中threading模块join函数用法.分享给大家供大家参考.具体分析如下: join的作用是众所周知的,阻塞进程直到线程执行完毕.通用的做法是我们启动一批线程,最后join这些线程结束,例如: for i in range(10): t = ThreadTest(i) thread_arr.append(t) for i in range(10): thread_arr[i].start() for i in range(10): thread_arr[i].joi
-
Python中with及contextlib的用法详解
本文实例讲述了Python中with及contextlib的用法.分享给大家供大家参考,具体如下: 平常Coding过程中,经常使用到的with场景是(打开文件进行文件处理,然后隐式地执行了文件句柄的关闭,同样适合socket之类的,这些类都提供了对with的支持): with file('test.py','r') as f : print f.readline() with的作用,类似try...finally...,提供一种上下文机制,要应用with语句的类,其内部必须提供两个内置函数__
-
python中去空格函数的用法
本文简单介绍了Python中去空格函数的用法,这是一个很实用的函数,希望对大家的Python程序设计有所帮助.具体分析如下: 在Python中字符串处理函数里有三个去空格的函数: strip 同时去掉左右两边的空格 lstrip 去掉左边的空格 rstrip 去掉右边的空格 具体示例如下: >>>a=" gho stwwl " >>>a.lstrip() 'gho stwwl ' >>>a.rstrip() ' gho stwwl'
-
Python中index()和seek()的用法(详解)
1.index() 一般用处是在序列中检索参数并返回第一次出现的索引,没找到就会报错,比如: >>> t=tuple('Allen') >>> t ('A', 'l', 'l', 'e', 'n') >>> t.index('a') Traceback (most recent call last): File "<pyshell#2>", line 1, in <module> t.index('a') V
-
Python中defaultdict与lambda表达式用法实例小结
本文实例讲述了Python中defaultdict与lambda表达式用法.分享给大家供大家参考,具体如下: 从教程中看到defaultdict是一个类,在一台装有Python2.7.6的电脑上使用发现不存在.在文档中搜索了一下也没有找到,想当然以为这或许是Python 3.X专有的.因为教程就是基于Python 3.X实现的.后来换了一台装有Python 3.X的电脑依然出问题. 求助于网络,发现这个类其实是collections模块中的一个类.看来,学习很难摆脱网络环境啊! 这个类是dict
随机推荐
- 注册表-批处理-VBS之间的功能对应
- Mysql中FIND_IN_SET()和IN区别简析
- Asp.Net平台下的图片在线裁剪功能的实现代码(源码打包)
- javascript使用递归算法求两个数字组合功能示例
- JavaScript reduce和reduceRight详解
- 基于SignalR的消息推送与二维码扫描登录实现代码
- php结合js实现点击超链接执行删除确认操作
- Android刮刮卡实现原理与代码讲解
- 一个PHP的String类代码
- Python实现多并发访问网站功能示例
- Android编程实现音量按钮添加监听事件的方法
- python开发之thread线程基础实例入门
- jquery中键盘事件小结
- Android总结之WebView与Javascript交互(互相调用)
- Android界面切换出现短暂黑屏的解决方法
- 在Framework 4.0中:找出新增的方法与新增的类(二)
- js获取html页面代码中图片地址的实现代码
- Kotlin实现半圆形进度条的方法示例
- 解决Nodejs全局安装模块后找不到命令的问题
- 微信小程序progress组件使用详解