python爬虫之遍历单个域名

2026-06-20 11:12:47

即使你没听说过“维基百科六度分隔理论”，也很可能听过“凯文 • 贝肯（Kevin Bacon）的六度分隔值游戏”。在这两个游戏中，目标都是把两个不相干的主题（在前一种情况中是相互链接的维基百科词条，而在后一种情况中是出现在同一部电影中的演员）用一个链条（至多包含 6 个主题，包括原来的两个主题）连接起来。

比如，埃里克 • 艾德尔和布兰登 • 弗雷泽都出现在电影《骑警杜德雷》里，布兰登 • 弗雷泽又和凯文 • 贝肯都出现在电影《我呼吸的空气》里。因此，根据这两个条件，从埃里克 • 艾德尔到凯文 • 贝肯的链条长度只有 3 个主题。

感谢 The Oracle of Bacon 的存在，满足了我对这类关系链的好奇心。

我们将在本节创建一个项目来实现“维基百科六度分隔理论”的查找方法。也就是说，我们要实现从埃里克 • 艾德尔的词条页面（https://en.wikipedia.org/wiki/Eric_Idle）开始，经过最少的链接点击次数找到凯文 • 贝肯的词条页面（https://en.wikipedia.org/wiki/Kevin_Bacon）。

这么做对维基百科的服务器负载有多大影响？

根据维基媒体基金会（维基百科所属的组织）的统计，该网站每秒会收到大约2500次点击，其中超过 99% 的点击都指向维基百科域名［详情请见“维基媒体统计图”（Wikimedia in Figures）里的“流量数据”（Traffic Volume）部分内容］。因为网站流量很大，所以你的网络爬虫不可能对维基百科的服务器负载产生显著影响。不过，如果你频繁地运行本书的代码示例，或者自己创建项目来抓取维基百科的词条，那么希望你能够向维基媒体基金会提供一点捐赠—— 不只是为了抵消你占用的服务器资源，也是为了其他人能够利用维基百科这个教育资源。

还需要注意的是，如果你准备利用维基百科的数据做一个大型项目，应该确认该数据是不能够通过维基百科 API 获取的。维基百科网站经常被用于演示爬虫，因为它的 HTML 结构简单并且相对稳定。但是它的 API 往往会使得数据获取更加高效。你应该已经知道如何写一段 Python 代码，来获取维基百科网站的任何页面并提取该页面中的链接了。

from urllib.request import urlopen from bs4 import BeautifulSoup
html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon')
bs = BeautifulSoup(html, 'html.parser')
for link in bs.find_all('a'):
if 'href' in link.attrs:
print(link.attrs['href'])

如果你观察生成的一列链接，会看到你想要的所有词条链接都在里面：“Apollo 13”“Philadelphia”“Primetime Emmy Award”，等等。但是，也有一些你不需要的链接：

//wikimediafoundation.org/wiki/Privacy_policy
//en.wikipedia.org/wiki/Wikipedia:Contact_us

其实，维基百科的每个页面都充满了侧边栏、页眉和页脚链接，以及连接到分类页面、对话页面和其他不包含词条的页面的链接：

/wiki/Category:Articles_with_unsourced_statements_from_April_2014
/wiki/Talk:Kevin_Bacon

最近我有个朋友在做一个类似的维基百科抓取项目，他说，为了判断一个维基百科内链是否链接到一个词条页面，他写了一个很大的过滤函数，代码超过了 100 行。不幸的是，他没有提前花很多时间去寻找“词条链接”和“其他链接”之间的模式，也可能他后来发现了。如果你仔细观察那些指向词条页面（不是指向其他内部页面）的链接，会发现它们都有 3 个共同点：

它们都在 id 是 bodyContent 的 div 标签里
URL 不包含冒号
URL 都以 /wiki/ 开头

我们可以利用这些规则稍微调整一下代码来仅获取词条链接，使用的正则表达式为 ^(/wiki/)((?!:).)*$")：

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon')
bs = BeautifulSoup(html, 'html.parser')
for link in bs.find('div', {'id':'bodyContent'}).find_all(
'a', href=re.compile('^(/wiki/)((?!:).)*$')):
if 'href' in link.attrs:
print(link.attrs['href'])

如果你运行以上代码，就会看到维基百科上凯文 • 贝肯词条里所有指向其他词条的链接。

当然，写程序来找出这个静态的维基百科词条里所有的词条链接很有趣，不过没什么实际用处。你需要让这段程序更像下面的形式。

一个函数 getLinks，可以用一个 /wiki/< 词条名称 > 形式的维基百科词条 URL 作为参数，然后以同样的形式返回一个列表，里面包含所有的词条 URL。
一个主函数，以某个起始词条为参数调用 getLinks，然后从返回的 URL 列表里随机选择一个词条链接，再次调用 getLinks，直到你主动停止程序，或者在新的页面上没有词条链接了。

完整的代码如下所示：

from urllib.request import urlopen
from bs4 import BeautifulSoup
import datetime
import random
import re

random.seed(datetime.datetime.now())
def getLinks(articleUrl):  html = urlopen('http://en.wikipedia.org{}'.format(articleUrl))
bs = BeautifulSoup(html, 'html.parser')
return bs.find('div', {'id':'bodyContent'}).find_all('a',
href=re.compile('^(/wiki/)((?!:).)*$'))
links = getLinks('/wiki/Kevin_Bacon')
while len(links) > 0:
newArticle = links[random.randint(0, len(links)-1)].attrs['href']
print(newArticle)
links = getLinks(newArticle)

导入需要的 Python 库之后，程序首先做的是用系统当前时间设置随机数生成器的种子。这样可以保证每次程序运行的时候，维基百科词条的选择都是一个全新的随机路径。

伪随机数和随机数种子

在前面的示例中，为了能够连续地随机遍历维基百科，我用 Python 的随机数生成器在每个页面上随机选择一个词条链接。但是，用随机数的时候需要格外小心。

虽然计算机很擅长做精确计算，但是它们处理随机事件时非常不靠谱。因此，随机数是一个难题。大多数随机数算法都努力生成一个呈均匀分布且难以预测的数字序列，但是在算法初始化阶段都需要提供一个随机数“种子”（random seed）。而完全相同的种子每次将生成同样的“随机”数序列，因此我将系统时间作为生成新随机数序列（和新随机词条序列）的起点。这样做会让程序运行的时候更具有随机性。

其实，Python 的伪随机数生成器用的是梅森旋转（Mersenne Twister）算法，它生成的随机数很难预测且呈均匀分布，就是有点儿耗费 CPU 资源。真正好的随机数可不便宜！然后，程序定义 getLinks 函数，它接收一个 /wiki/< 词条名称 > 形式的维基百科词条 URL 作为参数，在前面加上维基百科的域名 http://en.wikipedia.org，再用该域名的 HTML 获得一个 BeautifulSoup 对象。之后，基于前面介绍过的参数，抽取一列词条链接所在的标签 a 并返回它们。程序的主函数首先把起始页面 https://en.wikipedia.org/wiki/Kevin_Bacon 里的词条链接列表设置成链接标签列表（links 变量）。然后用一个循环，从页面中随机找一个词条链接标签并抽取 href 属性，打印这个页面，再把这个链接传入 getLinks 函数，重新获取新的链接列表。

当然，这里只是简单地构建一个从一个页面到另一个页面的爬虫，要解决“维基百科六度分隔理论”问题还需要再做一点儿工作。我们还应该存储 URL 链接数据并分析数据。

以上就是关于python爬虫之遍历单个域名的全部知识点，感谢大家的学习和对我们的支持。

Python字典常见操作实例小结【定义、添加、删除、遍历】

本文实例总结了Python字典常见操作.分享给大家供大家参考,具体如下: 简单的字典: 字典就是键值对key-value组合. #字典键值对组合 alien_0 ={'color':'green','number':5} print(alien_0['color']) print(alien_0['number']) 运行结果: green 5 添加键值对 alien_0 ={'color':'green','number':5} alien_0['first_name'] = 'mo' al
Python列表原理与用法详解【创建、元素增加、删除、访问、计数、切片、遍历等】

本文实例讲述了Python列表原理与用法.分享给大家供大家参考,具体如下: 列表的基本认识列表简介列表的创建基本语法[]创建 list()创建 range()创建整数列表推导式生成列表(简介一下,重点在 for 循环后讲) 列表元素的增加 append()方法 +运算符操作 extend()方法 insert()插入元素乘法扩展列表元素的删除 del 删除 pop()方法 remove()方法列表元素访问和计数通过索引直接访问元素 index()获得指定元素在列表中首次出现的索引
Python操作列表常用方法实例小结【创建、遍历、统计、切片等】

本文实例讲述了Python操作列表常用方法.分享给大家供大家参考,具体如下: 使用for循环,遍历整个列表依次从列表中取出元素,存放到names变量中,并拼接打印 names = ['杜子腾','杜小月','杜小星','杜小阳','杜小花'] for name in names: print("你好啊"+" "+name+" "+"我们交个朋友吧") 运行结果: 你好啊杜子腾我们交个朋友吧你好啊杜小月我们交个朋友吧
使用Python代码实现Linux中的ls遍历目录命令的实例代码

一.写在前面前几天在微信上看到这样一篇文章,链接为:https://www.jb51.net/it/692145.html,在这篇文章中,有这样一段话,吸引了我的注意: 在 Linux 中 ls 是一个使用频率非常高的命令了,可选的参数也有很多, 算是一条不得不掌握的命令.Python 作为一门简单易学的语言,被很多人认为是不需要认真学的,或者只是随便调个库就行了,那可就真是小瞧 Python 了.那这次我就要试着用 Python 来实现一下 Linux 中的 ls 命令, 小小地证明下 Py
python实现树的深度优先遍历与广度优先遍历详解

本文实例讲述了python实现树的深度优先遍历与广度优先遍历.分享给大家供大家参考,具体如下: 广度优先(层次遍历) 从树的root开始,从上到下从左到右遍历整个树的节点数和二叉树的区别就是,二叉树只有左右两个节点广度优先顺序:A - B - C - D - E - F - G - H - I 代码实现 def breadth_travel(self, root): """利用队列实现树的层次遍历""" if root == None: r
python爬虫之遍历单个域名

即使你没听说过"维基百科六度分隔理论",也很可能听过"凯文 • 贝肯 (Kevin Bacon)的六度分隔值游戏".在这两个游戏中,目标都是把两个不相干的主题(在前一种情况中是相互链接的维基百科词条,而在后一种情况中是出现在同一部电影中的演员)用一个链条(至多包含 6 个主题,包括原来的两个主题)连接起来. 比如,埃里克 • 艾德尔和布兰登 • 弗雷泽都出现在电影<骑警杜德雷> 里,布兰登 • 弗雷泽又和凯文 • 贝肯都出现在电影<我呼吸的空
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解

下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最基础的内容 html_doc = """ <html><head><title>The Dormouse's story</title></head> The Dormouse's story
python爬虫入门教程--HTML文本的解析库BeautifulSoup（四）

前言 python爬虫系列文章的第3篇介绍了网络请求库神器 Requests ,请求把数据返回来之后就要提取目标数据,不同的网站返回的内容通常有多种不同的格式,一种是 json 格式,这类数据对开发者来说最友好.另一种 XML 格式的,还有一种最常见格式的是 HTML 文档,今天就来讲讲如何从 HTML 中提取出感兴趣的数据自己写个 HTML 解析器来解析吗?还是用正则表达式?这些都不是最好的办法,好在,Python 社区在这方便早就有了很成熟的方案,BeautifulSoup 就是这一类问题
Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释

一.Tag(标签)对象 1.Tag对象与XML或HTML原生文档中的tag相同. from bs4 import BeautifulSoup soup = BeautifulSoup('Extremely bold','lxml') tag = soup.b type(tag) bs4.element.Tag 2.Tag的Name属性每个tag都有自己的名字,通过.name来获取 tag.name 'b' tag.
python爬虫开发之Request模块从安装到详细使用方法与实例全解

python爬虫模块Request的安装在cmd中,使用如下指令安装requests: pip install requests python爬虫模块Request快速上手 Requests 已安装 Requests 是最新的 Request模块发送请求使用 Requests 发送网络请求非常简单. 一开始要导入 Requests 模块: >>> import requests 然后,尝试获取某个网页.本例子中,我们来获取 Github 的公共时间线: >>> r
python爬虫开发之PyQuery模块详细使用方法与实例全解

python爬虫模块PyQuery简介 PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了. 官网地址:http://pyquery.readthedocs.io/en/latest/ jQuery参考文档: http://jquery.cuishifeng.cn/ P
Python爬虫进阶之爬取某视频并下载的实现

这几天在家闲得无聊,意外的挖掘到了一个资源网站(你懂得),但是网速慢广告多下载不了种种原因让我突然萌生了爬虫的想法. 下面说说流程: 一.网站分析首先进入网站,F12检查,本来以为这种低端网站很好爬取,是我太低估了web主.可以看到我刷新网页之后,出现了很多js文件,并且响应获取的代码与源代码不一样,这就不难猜到这个网站是动态加载页面. 目前我知道的动态网页爬取的方法只有这两种:1.从网页响应中找到JS脚本返回的JSON数据:2.使用Selenium对网页进行模拟访问.源代码问题好解决,重要的
Python爬虫进阶之Beautiful Soup库详解

一.Beautiful Soup库简介 BeautifulSoup4 是一个 HTML/XML 的解析器,主要的功能是解析和提取 HTML/XML 的数据.和 lxml 库一样. lxml 只会局部遍历,而 BeautifulSoup4 是基于 HTML DOM 的,会加载整个文档,解析整个 DOM 树,因此内存开销比较大,性能比较低. BeautifulSoup4 用来解析 HTML 比较简单,API 使用非常人性化,支持 CSS 选择器,是 Python 标准库中的 HTML 解析器,也支
Python爬虫之自动爬取某车之家各车销售数据

一.目标网页分析目标网站是某车之家关于品牌汽车车型的口碑模块相关数据,比如我们演示的案例奥迪Q5L的口碑页面如下: https://k.autohome.com.cn/4851/#pvareaid=3311678 为了演示方式,大家可以直接打开上面这个网址,然后拖到全部口碑位置,找到我们本次采集需要的字段如下图所示: 采集字段我们进行翻页发现,浏览器网址发生了变化,大家可以对下如下几页的网址找出规律: https://k.autohome.com.cn/4851/index_2.html#d
Python爬虫基础之初次使用scrapy爬虫实例

项目需求在专门供爬虫初学者训练爬虫技术的网站(http://quotes.toscrape.com)上爬取名言警句. 创建项目在开始爬取之前,必须创建一个新的Scrapy项目.进入您打算存储代码的目录中,运行下列命令: (base) λ scrapy startproject quotes New scrapy project 'quotes ', using template directory 'd: \anaconda3\lib\site-packages\scrapy\temp1at

python爬虫之遍历单个域名

相关推荐

随机推荐