Python爬虫分析汇总

2025-02-03 20:24:22

Python爬虫分析

前言：

计算机行业的发展太快了，有时候几天不学习，就被时代所抛弃了，因此对于我们程序员而言，最重要的就是要时刻紧跟业界动态变化，学习新的技术，但是很多时候我们又不知道学什么好，万一学的新技术并不会被广泛使用，太小众了对学习工作也帮助不大，这时候我们就想要知道大佬们都在学什么了，跟着大佬学习走弯路的概率就小很多了。现在就让我们看看C站大佬们平时都收藏了什么，大佬学什么跟着大佬的脚步就好了！

一、程序说明

通过爬取 “CSDN” 获取全站排名靠前的博主的公开收藏夹，写入 csv 文件中，根据所获取数据分析领域大佬们的学习趋势，并通过可视化的方式进行展示。

二、数据爬取

使用 requests 库请求网页信息，使用 BeautifulSoup4 和 json 库解析网页。

1、获取 CSDN 作者总榜数据

首先，我们需要获取 CSDN 中在榜的大佬，获取他/她们的相关信息。由于数据是动态加载的 (因此使用开发者工具，在网络选项卡中可以找到请求的 JSON 数据：

观察请求链接：

https://blog.csdn.net/phoenix/web/blog/all-rank?page=0&pageSize=20
https://blog.csdn.net/phoenix/web/blog/all-rank?page=1&pageSize=20
...

可以发现每次请求 JSON 数据时，会获取20个数据，为了获取排名前100的大佬数据，使用如下方式构造请求：

url_rank_pattern = "https://blog.csdn.net/phoenix/web/blog/all-rank?page={}&pageSize=20"

for i in range(5):
    url = url_rank_pattern.format(i)
    #声明网页编码方式
    response = requests.get(url=url, headers=headers)
    response.encoding = 'utf-8'
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')

请求得到 Json 数据后，使用 json 模块解析数据(当然也可以使用 re 模块，根据自己的喜好选择就好了)，获取用户信息，从需求上讲，这里仅需要用户 userName，因此仅解析 userName 信息，也可以根据需求获取其他信息：

userNames = []
information = json.loads(str(soup))
for j in information['data']['allRankListItem']:
    # 获取id信息
    userNames.append(j['userName'])

2、获取收藏夹列表

获取到大佬的 userName 信息后，通过主页来观察收藏夹列表的请求方式，本文以自己的主页为例(给自己推广一波)，分析方法与上一步类似，在主页中切换到“收藏”选项卡，同样利用开发者工具的网络选项卡：

观察请求收藏夹列表的地址：

https://blog.csdn.net/community/home-api/v1/get-favorites-created-list?page=1&size=20&noMore=false&blogUsername=LOVEmy134611

可以看到这里我们上一步获取的 userName 就用上了，可以通过替换 blogUsername 的值来获取列表中大佬的收藏夹列表，同样当收藏夹数量大于20时，可以通过修改 page 值来获取所有收藏夹列表：

collections = "https://blog.csdn.net/community/home-api/v1/get-favorites-created-list?page=1&size=20&noMore=false&blogUsername={}"
for userName in userNames:
    url = collections.format(userName)
    #声明网页编码方式
    response = requests.get(url=url, headers=headers)
    response.encoding = 'utf-8'
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')

请求得到 Json 数据后，使用 json 模块解析数据，获取收藏夹信息，从需求上讲，这里仅需要收藏夹 id，因此仅解析 id 信息，也可以根据需求获取其他信息(例如可以获取关注人数等信息，找到最受欢迎的收藏夹)：

file_id_list = []
information = json.loads(str(soup))
# 获取收藏夹总数
collection_number = information['data']['total']
# 获取收藏夹id
for j in information['data']['list']:
file_id_list.append(j['id'])

这里大家可能会问，现在 CSDN 不是有新旧两种主页么，请求方式能一样么？答案是：不一样，在浏览器端进行访问时，旧版本使用了不同的请求接口，但是我们同样可以使用新版本的请求方式来进行获取，因此就不必区分新、旧版本的请求接口了，获取收藏数据时情况也是一样的。

3、获取收藏数据

最后，单击收藏夹展开按钮，就可以看到收藏夹中的内容了，然后同样利用开发者工具的网络选项卡进行分析：

观察请求收藏夹的地址：

https://blog.csdn.net/community/home-api/v1/get-favorites-item-list?blogUsername=LOVEmy134611&folderId=9406232&page=1&pageSize=200

可以看到刚刚获取的用户 userName 和收藏夹 id 就可以构造请求获取收藏夹中的收藏信息了：

file_url = "https://blog.csdn.net/community/home-api/v1/get-favorites-item-list?blogUsername={}&folderId={}&page=1&pageSize=200"
for file_id in file_id_list:
    url = file_url.format(userName,file_id)
    #声明网页编码方式
    response = requests.get(url=url, headers=headers)
    response.encoding = 'utf-8'
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')

最后用 re 模块解析：

    user = user_dict[userName]
    user = preprocess(user)
    # 标题
    title_list  = analysis(r'"title":"(.*?)",', str(soup))
    # 链接
    url_list = analysis(r'"url":"(.*?)"', str(soup))
    # 作者
    nickname_list = analysis(r'"nickname":"(.*?)",', str(soup))
    # 收藏日期
    date_list = analysis(r'"dateTime":"(.*?)",', str(soup))
    for i in range(len(title_list)):
        title = preprocess(title_list[i])
        url = preprocess(url_list[i])
        nickname = preprocess(nickname_list[i])
        date = preprocess(date_list[i])

4、爬虫程序完整代码

import time
import requests
from bs4 import BeautifulSoup
import os
import json
import re
import csv

if not os.path.exists("col_infor.csv"):
    #创建存储csv文件存储数据
    file = open('col_infor.csv', "w", encoding="utf-8-sig",newline='')
    csv_head = csv.writer(file)
    #表头
    header = ['userName','title','url','anthor','date']
    csv_head.writerow(header)
    file.close()

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}

def preprocess(string):
    return string.replace(',',' ')

url_rank_pattern = "https://blog.csdn.net/phoenix/web/blog/all-rank?page={}&pageSize=20"

userNames = []
user_dict = {}
for i in range(5):
    url = url_rank_pattern.format(i)
    #声明网页编码方式
    response = requests.get(url=url, headers=headers)
    response.encoding = 'utf-8'
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    information = json.loads(str(soup))
    for j in information['data']['allRankListItem']:
        # 获取id信息
        userNames.append(j['userName'])
        user_dict[j['userName']] = j['nickName']

def get_col_list(page,userName):
    collections = "https://blog.csdn.net/community/home-api/v1/get-favorites-created-list?page={}&size=20&noMore=false&blogUsername={}"
    url = collections.format(page,userName)
    #声明网页编码方式
    response = requests.get(url=url, headers=headers)
    response.encoding = 'utf-8'
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    information = json.loads(str(soup))
    return information

def analysis(item,results):
    pattern = re.compile(item, re.I|re.M)
    result_list = pattern.findall(results)
    return result_list

def get_col(userName, file_id, col_page):
    file_url = "https://blog.csdn.net/community/home-api/v1/get-favorites-item-list?blogUsername={}&folderId={}&page={}&pageSize=200"
    url = file_url.format(userName,file_id, col_page)
    #声明网页编码方式
    response = requests.get(url=url, headers=headers)
    response.encoding = 'utf-8'
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    user = user_dict[userName]
    user = preprocess(user)
    # 标题
    title_list  = analysis(r'"title":"(.*?)",', str(soup))
    # 链接
    url_list = analysis(r'"url":"(.*?)"', str(soup))
    # 作者
    nickname_list = analysis(r'"nickname":"(.*?)",', str(soup))
    # 收藏日期
    date_list = analysis(r'"dateTime":"(.*?)",', str(soup))
    for i in range(len(title_list)):
        title = preprocess(title_list[i])
        url = preprocess(url_list[i])
        nickname = preprocess(nickname_list[i])
        date = preprocess(date_list[i])
        if title and url and nickname and date:
            with open('col_infor.csv', 'a+', encoding='utf-8-sig') as f:
                f.write(user + ',' + title + ',' + url + ',' + nickname + ',' + date  + '\n')

    return information

for userName in userNames:
    page = 1
    file_id_list = []
    information = get_col_list(page, userName)
    # 获取收藏夹总数
    collection_number = information['data']['total']
    # 获取收藏夹id
    for j in information['data']['list']:
        file_id_list.append(j['id'])
    while collection_number > 20:
        page = page + 1
        collection_number = collection_number - 20
        information = get_col_list(page, userName)
        # 获取收藏夹id
        for j in information['data']['list']:
            file_id_list.append(j['id'])
    collection_number = 0

    # 获取收藏信息
    for file_id in file_id_list:
        col_page = 1
        information = get_col(userName, file_id, col_page)
        number_col = information['data']['total']
        while number_col > 200:
            col_page = col_page + 1
            number_col = number_col - 200
            get_col(userName, file_id, col_page)
    number_col = 0

5、爬取数据结果

展示部分爬取结果：

三、数据分析及可视化

最后使用 wordcloud 库，绘制词云展示大佬收藏。

from os import path
from PIL import Image
import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud, STOPWORDS
import pandas as pd
import matplotlib.ticker as ticker
import numpy as np
import math
import re

df = pd.read_csv('col_infor.csv', encoding='utf-8-sig',usecols=['userName','title','url','anthor','date'])

place_array = df['title'].values
place_list = '，'.join(place_array)
with open('text.txt','a+') as f:
    f.writelines(place_list)

###当前文件路径
d = path.dirname(__file__)

# Read the whole text.
file = open(path.join(d, 'text.txt')).read()
##进行分词
#停用词
stopwords = ["的","与","和","建议","收藏","使用","了","实现","我","中","你","在","之"]
text_split = jieba.cut(file)  # 未去掉停用词的分词结果   list类型

#去掉停用词的分词结果  list类型
text_split_no = []
for word in text_split:
    if word not in stopwords:
        text_split_no.append(word)
#print(text_split_no)

text =' '.join(text_split_no)
#背景图片
picture_mask = np.array(Image.open(path.join(d, "path.jpg")))
stopwords = set(STOPWORDS)
stopwords.add("said")
wc = WordCloud(
    #设置字体，指定字体路径
    font_path=r'C:\Windows\Fonts\simsun.ttc',
    # font_path=r'/usr/share/fonts/wps-office/simsun.ttc',
    background_color="white",
    max_words=2000,
    mask=picture_mask,
    stopwords=stopwords)
# 生成词云
wc.generate(text)

# 存储图片
wc.to_file(path.join(d, "result.jpg"))

到此这篇关于Python爬虫分析汇总的文章就介绍到这了,更多相关Python爬虫内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python获取江苏疫情实时数据及爬虫分析

目录 1.引言 2.获取目标网站 3.爬取目标网站 4.解析爬取内容 4.1. 解析全国今日总况 4.2. 解析全国各省份疫情情况 4.3. 解析江苏各地级市疫情情况 5.结果可视化 6. 代码 7. 参考 1.引言最近江苏南京.湖南张家界陆续爆发疫情,目前已波及8省22市,全国共有2个高风险地区,52个中风险地区.身在南京,作为兢兢业业的打工人,默默地成为了"苏打绿".为了关注疫情状况,今天我们用python来爬一爬疫情的实时数据. 2.获取目标网站为了使用python来获取疫情
python爬虫Scrapy框架:媒体管道原理学习分析

目录一.媒体管道 1.1.媒体管道的特性媒体管道实现了以下特性: 图像管道具有一些额外的图像处理功能: 1.2.媒体管道的设置二.ImagesPipeline类简介三.小案例:使用图片管道爬取百度图片 3.1.spider文件 3.2.items文件 3.3.settings文件 3.4.pipelines文件一.媒体管道 1.1.媒体管道的特性媒体管道实现了以下特性: 避免重新下载最近下载的媒体指定存储位置(文件系统目录,Amazon S3 bucket,谷歌云存储bucket)
Python爬虫和反爬技术过程详解

目录一.浏览器模拟(Headers) 如何找到浏览器信息打开浏览器,按F12(或者鼠标右键+检查) 点击如下图所示的Network按钮按键盘Ctrl+R(MAC:Command+R)进行抓包在Python中使用user-agent的方式如下: 常用的请求头(模拟浏览器)信息如下: 二.IP代理 Python使用IP代理的方式如下: 控制访问频率使用time模块即可: 三.Cookies模拟手动获取cookie 自动获取cookie 使用cookies 一.浏览器模拟(Headers)
关于python爬虫应用urllib库作用分析

目录一.urllib库是什么? 二.urllib库的使用 urllib.request模块 urllib.parse模块利用try-except,进行超时处理 status状态码 && getheaders() 突破反爬一.urllib库是什么? urllib库用于操作网页 URL,并对网页的内容进行抓取处理 urllib包包含以下几个模块: urllib.request - 打开和读取 URL. urllib.error - 包含 urllib.request 抛出的异常. ur
python爬虫之Appium爬取手机App数据及模拟用户手势

目录 Appium 模拟操作屏幕滑动屏幕点击屏幕拖动屏幕拖拽文本输入动作链实战:爬取微博首页信息 Appium 在前文的讲解中,我们学会了如何安装Appium,以及一些基础获取App元素内容的方式.但认真看过前文的读者,肯定在博主获取元素的时候观察到了一个现象. 那就是手机App的内容并不是一次性加载出来的,比如大多数Android手机列表ListView,都是异步加载,也就是你滑动到那个位置,它才会显示出它的内容. 也就是说,我们前面爬取微博首页全部信息的时候,如果你不滑动先加载
教你如何利用python3爬虫爬取漫画岛-非人哉漫画

最近学了一点点python爬虫的知识,面向百度编程爬了一本小说之后感觉有点不满足,于是突发奇想尝试爬一本漫画下来看看. 一.效果展示首先是我们想要爬取的漫画网页:http://www.manhuadao.cn/ 网页截图: 其次是爬取下来的效果: 每一回的文件夹里面是这样的: (因为网站图片的问题...所以就成了这个鬼样子) 二.分析原理 1.准备:需要vscode或者其他能够编译运行python的软件,推荐python版本3.X ,否则有可能出现编译问题. 下载所需模块:win+R进入命令行
Python爬虫爬取商品失败处理方法

1.登陆网站,开启开发者模式. 可以在浏览器中点击右键检查或者F12打开开发者模式. 2.点选 NetWork,DOC,然后刷新页面. 在 network 中选择 doc,在请求的 headers 中搜索 cookie. 3.获取对应的 cookie 以及 user-agent. 4.在代码中添加到 headers 里面. def getHTMLText(url): kv = { 'cookie': 'adsgadfafegadsgadsfaefasdfaewfadsfag' 'uaer-age
python爬虫Mitmproxy安装使用学习笔记

目录一.简介和安装 1.1.概念和作用概念作用 1.2.安装 1.3.工具介绍二.设置代理 2.1.PC端设置代理 2.2.PC端安装证书 2.3.移动端设置代理三. mitmdump 3.1.插件使用 3.2.常用事件 3.2.1.request事件 3.2.2.response事件 3.3.下载图片一.简介和安装 1.1.概念和作用概念 Mitmproxy是一个免费的开源交互式的HTTPS代理.MITM即中间人攻击(Man-in-the-Middle Attack). 作用代
Python爬虫之Scrapy环境搭建案例教程

Python爬虫之Scrapy环境搭建如何搭建Scrapy环境首先要安装Python环境,Python环境搭建见:https://blog.csdn.net/alice_tl/article/details/76793590 接下来安装Scrapy 1.安装Scrapy,在终端使用pip install Scrapy(注意最好是国外的环境) 进度提示如下: alicedeMacBook-Pro:~ alice$ pip install Scrapy Collecting Scrapy Usi
Python爬虫中urllib3与urllib的区别是什么

目录 urllib库 urllib.request模块 Request对象 1 . 请求头添加 2. 操作cookie 3. 设置代理 urllib.parse模块 urllib.error模块 urllib.robotparse模块网络库urllib3 网络请求 GET请求 POST请求 HTTP响应头上传文件超时处理 urllib库 urllib 是一个用来处理网络请求的python标准库,它包含4个模块. urllib.request---请求模块,用于发起网络请求 urllib.p
爬虫Python验证码识别入门

目录爬虫Python验证码识别 1.批量下载验证码图片 2.识别代码看看效果 3.折腾降噪.去干扰爬虫Python验证码识别前言: 二值化.普通降噪.8邻域降噪 tesseract.tesserocr.PIL 参考文献--代码地址:https://github.com/liguobao/python-verify-code-ocr 1.批量下载验证码图片 import shutil import requests from loguru import logger for i in ran
Python爬虫技术

目录一.Python爬虫简单介绍 1.抓取网页本身的接口 2.网页抓取后的处理二.爬虫架构三.URL管理器 1.基本功能 2.存蓄方式 3.网页下载器(urllib) 四.网页解析器(BeautifulSoup) 1.解析器选择 2.BeautifulSoup 3.使用说明一.Python爬虫简单介绍 1.抓取网页本身的接口相比与其他静态的编程语言,如java,c#,C++,python抓取网页的接口更简洁:相比其他动态脚本语言,如Perl,shell,python的urllib包提供