python 爬取腾讯视频评论的实现步骤

2025-02-20 14:00:37

一、网址分析

查阅了网上的大部分资料，大概都是通过抓包获取。但是抓包有点麻烦，尝试了F12，也可以获取到评论。以电视剧《在一起》为例子。评论最底端有个查看更多评论猜测过去应该是 Ajax 的异步加载。
网上的大部分都是构建评论的网址，通过 requests 获取，正则表达式进行数据处理。本文也利用该方法进行数据处理，其实利用 scrapy 会更简单。
根据前辈给出的经验，顺利找到了评论所在的链接。

在新标签中打开，该网址的链接。

评论都在"content":"xxxxx"里面，所有可以通过正则表达式获取。
那么现在要开始构建网址，找到其规律。
在查找评论链接的过程中无意发现，点击影评旁边的评论总数，可以获取到更为干净的评论界面。结果是一样的。

既然是要爬取所有的评论，所以知道评论数是必不可少的。

再通过F12获取到评论链接，找到网址的规律，构建网址，加载三四个评论就行了。这里加载了四个网址。把所有网址复制到文本文件中，进行对比分析。

观察发现只有 cursor 和 source 进行了改变，其他是不变的，二 source 是在第一个的基础上进行加一操作，所以只需要获取到 cursor 即可。我们打开一个评论链接的网址，我们可以知道，cursor 其实是上一页最后一个用户的ID码。所以我们只需要在爬取上一页的时候一起爬虫了。然后就可以构建网址。

二、代码编写

这个代码还是简单的。套用之前上课做的模板就可以直接进行爬虫了。
通过正则表达式获取评论，返回一个列表；
正则表达式获得的 cursor 码是列表，所以要转化为字符串使用；
source 很简单了，直接在上一个的基础上加一即可。

def getComment(html): # 爬取单页评论

 findeComment = re.compile(r'"content":"(.*?)"', re.S)
 comment = re.findall(findeComment, html)
 # print(comment)
 return comment

def getCursor(html): # 获取下一页的cursor码
 findeCursor = re.compile(r'"last":"(.*?)"', re.S)
 cursor = re.findall(findeCursor, html)[0]
 # print(cursor)
 return cursor

def getSource(source): # 获取下一页的source码
 source = int(source) + 1
 return str(source)

有点难度的可能就送弄代理吧，但是代理可以模仿网上其他人的写法，所以还是不是很难。

#添加用户代理

def ua(uapools):
 thisua = random.choice(uapools)
 # print(thisua)
 headers = ("User-Agent", thisua)
 opener = urllib.request.build_opener()
 opener.addheaders = [headers]
 # 设置为全局变量
 urllib.request.install_opener(opener)

三、遇到的问题

1. 获取评论的时候也将子评论爬虫进去了。

仔细查看了源码，发现评论主要在 data 下面的 oriCommList 列表里，其他范围的评论为子评论。个人认为子评论也算有效评论，目前不打算处理。

2. 获取全部评论数，直接通过 requests 获取不到

尝试了 xpath 和 requests 发现不能获取全部评论数，所以目前只能通过 selenium 获取，但是 selenium 效率太低了，就获取一个评论总数，还不如打开源码直接修改评论总数，所以暂时没有修改

3. 评论总数数据太大

因为之前爬虫过很多网站，同一个 user-agent 很容易被 ban ，所以目前构建了用户代理，然后进行随机。其实还想加一个 ip 代理的，但是使用了 ip 代理的网址，上面写的正常的 ip ，在使用的时候，拒绝连接。也尝试过构建代理池。但是代理池一般都是使用docker 和 Redis 进行获取。暂时没有选用，之选用了用户代理，然后在获取 headers 的时候加个 time.sleep(1)。目前还是正常的。

4. 报错'utf-8' codec can't decode byte 0xff in position 1: invalid start byte

遇到这个问题，实在无语，我怀疑后面的评论是新出的 emjoy，然后utf-8不能识别，程序挂掉了。但是选取其他格式，在解释的过程估计还会挂掉，就暂时爬到1万条吧。

四、完整代码

代码仓库

以上就是python 爬取腾讯视频评论的实现步骤的详细内容，更多关于python 爬取腾讯视频评论的资料请关注我们其它相关文章！

Python爬取腾讯视频评论的思路详解

一.前提条件安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于代理服务器有Python的编译环境,一般选择Python3.0及以上声明:本次爬取腾讯视频里 <最美公里>纪录片的评论.本次爬取使用的浏览器是谷歌浏览器二.分析思路 1.分析评论页面根据上图,我们可以知道:评论使用了Ajax异步刷新技术.这样就不能使用以前分析当前页面找出规律的手段了.因为展示的页面只有部分评论,还有大量的评论没有被刷新出
基于python实现的抓取腾讯视频所有电影的爬虫

我搜集了国内10几个电影网站的数据,里面近几十W条记录,用文本没法存,mongodb学习成本非常低,安装.下载.运行起来不会花你5分钟时间. # -*- coding: utf-8 -*- # by awakenjoys. my site: www.dianying.at import re import urllib2 from bs4 import BeautifulSoup import string, time import pymongo NUM = 0 #全局变量,电影数量 m_ty
使用Python下载抖音各大V视频的思路详解

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python七号 ,作者 somenzz Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space.bilibili.com/523606542 上次写了用 Python 批量下载知乎视频的方式,这次分享用 Python 批量下载抖音个人主页的全部无水印视频,本文重点不是提供一个好用的脚本,而是讲述如何写出这样的脚本,正所谓授人以鱼,不如授人
python gui开发——制作抖音无水印视频下载工具(附源码)

hello,大家好啊,失踪人口回归了 [捂脸]!本次使用tkinter撰写一篇抖音无水印视频下载,目的很纯粹,就是为了设置微信状态视频.本篇博文中,我会写下我的代码撰写思路以及想写设计流程,代码放在了第四节,工具打包好放在了蓝奏云,慢慢看,后面有链接. 一．准备工作本次要用到以下依赖库:re json os random tkinter threading requests pillow 其中后两个需要安装后使用二．预览 0.复制抖音分享短链接 1.启动 2.运行 3.结果 (小姐姐挺
Biblibili视频投稿接口分析并以Python实现自动投稿功能

B站视频发布接口分析项目地址:https://gitee.com/nbody1996/bilibili_video_uploader 视频地址:https://www.bilibili.com/video/BV1qt4y1v76u/ 获取登录Cookies 请求要带着登录成功后关键Cookies,才能被B站后台认为是已登录的状态. 研究发现,以下两个是必要的: SESSDATA(session会话cookies, 相当于登录凭证) bili_jct(防CSRF攻击) 这两个都能在浏览器开发者工
使用python实现抓取腾讯视频所有电影的爬虫

用python实现的抓取腾讯视频所有电影的爬虫 # -*- coding: utf-8 -*- import re import urllib2 from bs4import BeautifulSoup import string, time import pymongo NUM =0 #全局变量,电影数量 m_type = u'' #全局变量,电影类型 m_site = u'qq' #全局变量,电影网站 #根据指定的URL获取网页内容 def gethtml(url): req = urlli
用python制作个视频下载器

前言某个夜深人静的夜晚,夜微凉风微扬,月光照进我的书房~ 当我打开文件夹以回顾往事之余,惊现许多看似杂乱的无聊代码.我拍腿正坐,一个想法油然而生:"生活已然很无聊,不如再无聊些叭". 于是,我决定开一个专题,便称之为kimol君的无聊小发明. 妙-啊~~~ 众所周知,视频是一个学习新姿势知识的良好媒介.那么,如何利用爬虫更加方便快捷地下载视频呢?本文将从数据包分析到代码实现来进行一个相对完整的讲解. 一.爬虫分析本次选取的目标视频网站为某度旗下的好看视频: https://haok
python利用文件时间批量重命名照片和视频

本文实例为大家分享了python利用文件时间批量重命名照片和视频的具体代码,供大家参考,具体内容如下问题描述承接上节的问题,在安卓和苹果间互导照片和视频还容易出现文件名混乱的问题,如下图所示. 代码实现为保证文件名的准确性,这里主要提取照片的拍摄时间和视频的修改时间用于重命名,这两个时间一般是其原始时间,实现代码如下: import os import re import time import exifread def get_file_date(filepath, format): '
Python爬取梨视频的示例

爬取流程(美食区最热标签下的三个视频) 在首页获取视频的编号和名字拼接成正确的url 保存视频思路 1.从网页中获取视频的url 发现视频的url在id为"JprismPlayer"的div标签下的video标签src属性中,xpath解析网页 video_url = tree.xpath("//div[@id='JprismPlayer']/video/@src") 但得到的返回值为空,也就是说这个video标签在原网页中并不存在,很可能是动态加载出来的 2.
python tkinter实现下载进度条及抖音视频去水印原理

tkinter下载进度条利用python爬取网站数据进行下载时,显示下载进度 # 设置下载进度条 tk.Label(window, text='下载进度:').place(x=40, y=80) canvas = tk.Canvas(window, width=600, height=16, bg="white") canvas.place(x=20, y=90) # 下载按钮函数 def usr_download(): response = session.get(url_str,
Python爬取某平台短视频的方法

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 Pycharm 相关模块的使用 import os import requests 安装Python并添加到环境变量,pip安装需要的相关模块即可. 一.确定需求爬取搞笑趣味栏目的视频内容. 二.网站数据分析首先需要明确一点,好看视频网站加载方式是懒加载的方式,需要你下滑网页才会加载出新的内容加载出来的内容里面有音频播放地址以及标题. 内容比较简单