用python爬虫爬取CSDN博主信息

2025-02-08 13:36:23

一、项目介绍

爬取网址：CSDN首页的Python、Java、前端、架构以及数据库栏目。简单分析其各自的URL不难发现，都是https://www.csdn.net/nav/+栏目名样式，这样我们就可以爬取不同栏目了。

以Python目录页为例，如下图所示：

爬取内容：每篇文章的博主信息，如博主姓名、码龄、原创数、访问量、粉丝数、获赞数、评论数、收藏数

（考虑到周排名、总排名、积分都是根据上述信息综合得到的，对后续分析没实质性的作用，这里暂不爬取。）

不想看代码的朋友可直接跳到第三部分~

二、Selenium爬取

分析目录页可知文章是需要动态加载的，此时需要selenium模拟浏览器不断下拉才能获取新的文章。文章的链接如下所示：

1、第一种爬取思路（未果）

思路图如下：

执行的关键代码如下：

from selenium import webdriver
import time
driver = webdriver.Chrome()
driver.get('https://www.csdn.net/nav/python')
#下拉若干次
for i in range(10):
        driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
	time.sleep(1)
#定位所有链接
blog_url = driver.find_elements_by_css_selector('div.title > h2 > a') #注意:这里保存的是所有element对象
for i in range(len(blog_url)):
	url = blog_url[i].get_attribute('href')
	driver.get(url)
	#------------相关信息爬取(省略)----------
	driver.back() #返回目录页

理论上，这段代码看起来是可以实现要求的，但实际上会遇到以下两个问题！

（1）元素定位问题

报错的原因：selenium当打开新的页面后，原来定位过的元素都会失效，需要重新定位元素。上面的driver.back()相当于打开的新的页面（但是对于我们来说只是返回原来的页面）

解决方式：只要每次返回目录页后重新定位元素即可，如下所示：

for i in range(len(blog_url)):
	blog_refind_url = driver.find_elements_by_css_selector('div.title > h2 > a')  #重新定位
	url = blog_refind_url[i].get_attribute('href')
	driver.get(url)
	#------------相关信息爬取(省略)----------
	driver.back() #返回目录页

重新定位后，不难发现，这必须要求blog_url和blog_refind_url这两个列表的长度一致啊！那也就是：每次返回目录页后，需要保持在上一次浏览的位置！ 由此引发了第二个问题：定位元素的不一致。

（2）定位元素不一致

我们在获取所有的文章链接之前，首先进行的下滑页面的操作。而每次driver.back()之后，页面都会回到最初的位置！这就很头疼，如果要保持一样的浏览位置，难道每次返回后都要下拉相同次数的页面么？那么此时我们需要解决的问题则是：如何保持上一级页面的浏览位置。emm，查了一些资料，发现这个需求是和javascript相关的。详细可参考这篇博客：js:返回到页面时滚动到上次浏览位置

大致解决思路：保存每次下滑的位置，然后最终调用最后一次下滑的位置。但归根到底，还是需要每次滑动页面，依旧很麻烦，这种思路到这也只能不了了之了。（会javascript的朋友可以尝试如何让页面直接恢复到上一级页面浏览的位置）

2、第二种爬取思路（成功）

不过，仔细思考一下，上面两个问题的来源关键在于selenium访问页面后，元素会重新定位。而我们第一步定位所有文章链接时保存的列表，里面的元素都是element对象（它是会随着页面变化而改变的！）。所以，我们只要保存每个文章的url到一个列表，挨个访问每个url，不就可以了？

思路图如下：

两种思路的对比与思考：前者装有所有文章的列表里都是element对象，而后者装有所有文章的列表里都是url。后者免去了再返回页面这一操作，相当于将一个爬取二级页面问题转化为一级页面问题！

全部代码如下：

from selenium import webdriver
import os
os.chdir('C:/Users/dell/Desktop')
import time
import pandas as pd
def scroll_down(driver,num):
    for i in range(num):
        driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
        time.sleep(1)
def save_data(df):
    data=pd.DataFrame(df,columns=['blog_name','code_time','blog_num',
                                'view_num','fans_num','likes_num',
                                'comments_num','collections_num'])
    data.to_csv('csdn_user.csv',index=False,encoding='gb18030')
def crawler_csdn(parts_list):
    opt = webdriver.ChromeOptions()
    opt.add_experimental_option('excludeSwitches',['enable-automation'])
    opt.add_argument('--headless')
    opt.add_argument('--disable-gpu')
    opt.add_argument('blink-settings=imagesEnabled=false')
    driver = webdriver.Chrome(options=opt)
    df = []
    for part in parts_list:
        count=0
        url_des='https://www.csdn.net/nav/'+part
        driver.get(url_des)
        scroll_down(driver,30)
        time.sleep(2)
        print('开始爬取{}部分'.format(part))
        blog_list=[]
        blog_url = driver.find_elements_by_css_selector('div.title > h2 > a')
        for url in blog_url:
            blog_list.append(url.get_attribute('href'))
        print('共{}个博主'.format(len(blog_list)))
        for i in range(len(blog_list)):
            try:
                driver.get(blog_list[i])
                blog_name = driver.find_element_by_css_selector('div.profile-intro-name-boxTop > a >span.name').text
                code_time = driver.find_element_by_css_selector('span.personal-home-page.personal-home-years').text
                blog_num = driver.find_element_by_css_selector(
                    'div.data-info.d-flex.item-tiling>dl.text-center>a>dt>span.count').text
                inf_list = driver.find_elements_by_css_selector('div.data-info.d-flex.item-tiling>dl.text-center>dt>span.count')
                df.append([blog_name, code_time, blog_num,
                           inf_list[0].text, inf_list[2].text, inf_list[3].text,
                           inf_list[4].text, inf_list[5].text])
                count += 1
                print('第{}个博主信息爬取完成'.format(count))
            except:
                print('相关信息不全')
        print('{}部分爬取完成'.format(part))
    return df
if __name__ =='__main__':
    start = time.time()
    parts_list=['Python','Java','web','arch','db']
    df = crawler_csdn(parts_list)
    save_data(df)
    end = time.time()
    spend_time = int((end-start)/60)
    print('共花费{}分钟'.format(spend_time))

爬取结果如下：

三、Webscraper爬取

之前的博客分享过Webscraper是一种轻量级的爬取软件。不想看代码的朋友可以用它来复现上述爬取过程。（注：以下爬取过程只是针对首页的某一个栏目）

最终的爬取线路图如下

依旧以首页的Python栏为例：

1、创建下拉对象

这个container只是一个ID，它可以取任意名字的。其他的设置如下图所示：

Type勾选Element_scroll_down(负责下拉页面)勾选上Multiple后，点击多个文章所在模块后，则会出现红色选定。此时点击Done selecting，完成selector的配置。Delay设置为2000毫秒（给予页面反应时间）

此外，需要在selector后面加上:nth-of-type(-n+300)，控制爬取的条数，否则它会一直下拉页面！（这里的300则代表需要爬取的总条数）最终，selector的配置如下：

2、创建文章链接对象

保存container的selector后，点击进入下一层，创建如下selector

具体内容如下：

Type选择LinkSelector中不勾选Multiple，h2 a则是文章链接定位的位置

Link不方便定位的话，可以先选择text进行定位，然后得到位置后，再复制到link这即可。

3、创建博主信息对象

同理，保存完inf的selector后，再点击进入下一层，依次创建各类信息的selector，如下所示：

以name为例，其内容如下：

type选择text，相应的选择器内容只要鼠标点击博主姓名即可获得。

这样，我们就完成了所有的准备工作，接下来就可爬取啦~所有延迟时间均设置为2000ms

最终爬取结果如下（这里仅作演示，只爬取了七条）：

本次创建的sitemap如下，有兴趣的朋友可以自己实验下，只需要import sitemap即可

{"startUrl":"https://blog.csdn.net/nav/python","selectors":[{"parentSelectors":
["_root"],"type":"SelectorElementScroll","multiple":true,"id":"container","selector":"ul.feedlist_mod li.clearfix:nth-of-type(-n+300)","delay":"2000"},{"parentSelectors":
["container"],"type":"SelectorLink","multiple":false,"id":"inf","selector":"h2 a","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"name","selector":"div.profile-intro-name-boxTop span.name","regex":"","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"blog_num","selector":"dl.text-center:nth-of-type(1) a span.count","regex":"","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"code_time","selector":"span.personal-home-page.personal-home-years","regex":"","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"views_num","selector":"div.data-info:nth-of-type(2) dl.text-center > dt span.count","regex":"","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"fans","selector":"dl#fanBox.text-center span.count","regex":"","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"agreement","selector":"dl.text-center:nth-of-type(3) > dt span.count","regex":"","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"comment","selector":"div.data-info:nth-of-type(4) dl.text-center:nth-of-type(4) span.count","regex":"","delay":""},{"parentSelectors":["inf"],"type":"SelectorText","multiple":false,"id":"collection_num","selector":"dl.text-center:nth-of-type(5) span.count","regex":"","delay":""}],"_id":"csdn"}

总结：Webscraper虽然简单易操作，速度也和selenium差不多，但每次只能爬一个网址，需要连续爬取多个网址，还是得码代码~
以上就是使用python快速爬取CSDN博主信息的详细内容，更多关于python爬取CSDN博主信息的资料请关注我们其它相关文章！

Python爬虫之爬取某文库文档数据

一.基本开发环境 Python 3.6 Pycharm 二.相关模块的使用 import os import requests import time import re import json from docx import Document from docx.shared import Cm 安装Python并添加到环境变量,pip安装需要的相关模块即可. 三.目标网页分析网站的文档内容,都是以图片形式存在的.它有自己的数据接口接口链接: https://openapi.book11
Python爬虫爬取全球疫情数据并存储到mysql数据库的步骤

思路:使用Python爬虫对腾讯疫情网站世界疫情数据进行爬取,封装成一个函数返回一个字典数据格式的对象,写另一个方法调用该函数接收返回值,和数据库取得连接后把数据存储到mysql数据库. 一.mysql数据库建表 CREATE TABLE world( id INT(11) NOT NULL AUTO_INCREMENT, dt DATETIME NOT NULL COMMENT '日期', c_name VARCHAR(35) DEFAULT NULL COMMENT '国家'
Python爬虫之爬取2020女团选秀数据

一.先看结果 1.1创造营2020撑腰榜前三甲创造营2020撑腰榜前三名分别是希林娜依·高.陈卓璇 .郑乃馨 >>>df1[df1['排名']<=3 ][['排名','姓名','身高','体重','生日','出生地']] 排名姓名身高体重生日出生地 0 1.0 希林娜依·高 NaN NaN 1998年07月31日新疆 1 2.0 陈卓璇 168.0 42.0 1997年08月13日贵州 2 3.0 郑乃馨 NaN NaN 1997年06月25日泰国 1.2青春有
Python爬虫之教你利用Scrapy爬取图片

Scrapy下载图片项目介绍 Scrapy是一个适用爬取网站数据.提取结构性数据的应用程序框架,它可以通过定制化的修改来满足不同的爬虫需求. 使用Scrapy下载图片项目创建首先在终端创建项目 # win4000为项目名 $ scrapy startproject win4000 该命令将创建下述项目目录. 项目预览查看项目目录 win4000 win4000 spiders __init__.py __init__.py items.py middlewares.py pipelines
python爬虫之教你如何爬取地理数据

一.shapely模块 1.shapely shapely是python中开源的针对空间几何进行处理的模块,支持点.线.面等基本几何对象类型以及相关空间操作. 2.point→Point类 curve→LineString和LinearRing类: surface→Polygon类集合方法分别对应MultiPoint.MultiLineString.MultiPolygon 3.导入所需模块 # 导入所需模块 from shapely import geometry as geo from s
Python爬取科目四考试题库的方法实现

1.环境 PyCharm Python 3.6 pip安装的依赖包包括:requests 2.25.0.urllib3 1.26.2.docx 0.2.4.python-docx 0.8.10.lxml 4.6.2 谷歌浏览器 2.目标网站及请求分析驾驶员考试网站从上图中,可以看到科目四共有1487道题目,为了将所有的题目汇总到一个Word文档中,需要获取到每道题的文本和图片. 首先,打开谷歌浏览器访问上述网站,键盘按F12,点击Network,点击左侧题目中的向右箭头,一直
python爬取各省降水量及可视化详解

在具体数据的选取上,我爬取的是各省份降水量实时数据话不多说,开始实操正文 1.爬取数据使用python爬虫,爬取中国天气网各省份24时整点气象数据由于降水量为动态数据,以js形式进行存储,故采用selenium方法经xpath爬取数据-ps:在进行数据爬取时,最初使用的方法是漂亮汤法(beautifulsoup)法,但当输出爬取的内容(<class = split>时,却空空如也.在源代码界面Ctrl+Shift+F搜索后也无法找到降水量,后查询得知此为动态数据,无法用该方法进行爬取
python爬取晋江文学城小说评论(情绪分析)

1. 收集数据 1.1 爬取晋江文学城收藏排行榜前50页的小说信息获取收藏榜前50页的小说列表,第一页网址为 'http://www.jjwxc.net/bookbase.php?fw0=0&fbsj=0&ycx0=0&xx2=2&mainview0=0&sd0=0&lx0=0&fg0=0&sortType=0&isfinish=0&collectiontypes=ors&searchkeywords=&pa
python基于scrapy爬取京东笔记本电脑数据并进行简单处理和分析

一.环境准备 python3.8.3 pycharm 项目所需第三方包 pip install scrapy fake-useragent requests selenium virtualenv -i https://pypi.douban.com/simple 1.1 创建虚拟环境切换到指定目录创建 virtualenv .venv 创建完记得激活虚拟环境 1.2 创建项目 scrapy startproject 项目名称 1.3 使用pycharm打开项目,将创建的虚拟环境配置到项目中来
详解用python实现爬取CSDN热门评论URL并存入redis

一.配置webdriver 下载谷歌浏览器驱动,并配置好 import time import random from PIL import Image from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import exp
python 爬取壁纸网站的示例

本次爬虫用到的网址是: http://www.netbian.com/index.htm: 彼岸桌面.里面有很多的好看壁纸,而且都是可以下载高清无损的,还比较不错,所以我就拿这个网站练练手. 作为一个初学者,刚开始的时候,无论的代码的质量如何,总之代码只要能够被正确完整的运行那就很能够让自己开心的,如同我们的游戏一样,能在短时间内得到正向的反馈,我们就会更有兴趣去玩. 学习也是如此,只要我们能够在短期内得到学习带来的反馈,那么我们的对于学习的欲望也是强烈的. 作为一个菜鸡,能够完整的完整此次爬虫
利用Python网络爬虫爬取各大音乐评论的代码

python爬虫--爬取网易云音乐评论方1:使用selenium模块,简单粗暴.但是虽然方便但是缺点也是很明显,运行慢等等等. 方2:常规思路:直接去请求服务器 1.简易看出评论是动态加载的,一定是ajax方式. 2.通过网络抓包,可以找出评论请求的的URL 得到请求的URL 3.去查看post请求所上传的数据显然是经过加密的,现在就需要按着网易的思路去解读加密过程,然后进行模拟加密. 4.首先去查看请求是经过那些js到达服务器的 5.设置断点:依次对所发送的内容进行观察,找到评论对应的UR