Python+Selenium实现短视频热点爬取

2025-02-03 10:18:36

随着短视频的大火，不仅可以给人们带来娱乐，还有热点新闻时事以及各种知识，刷短视频也逐渐成为了日常生活的一部分。本文以一个简单的小例子，简述如何通过Pyhton依托Selenium来爬取短视频，仅供学习分享使用，如有不足之处，还请指正。

涉及知识点

1.selenium，作为浏览器端一个自动化测试工具，可以模拟用户操作浏览器的动作，就像是人自己操作浏览器一样。关于selenium的具体信息如下

Selenium进行元素定位，主要有ID，Name，ClassName，Css Selector，Partial LinkText，LinkText，XPath，TagName等8种方式。
Selenium获取单一元素（如：find_element）和获取元素数组（如：find_elements）两种方式。
Selenium元素定位后，可以给元素进行赋值和取值，或者进行相应的事件操作（如：click）。

2.requests，web请求对象，通过selenium获取到视频的url后，再通过requests库进行视频流的获取，然后保存成本地视频文件。

3.浏览器开发者工具，通过开发者工具可以查看页面上某一个按钮或链接等页面元素对应的html标识。

目标分析

在爬取视频之前，需要分析目标结构，本视频爬取分析可分为三步，具体如下所示：

1. 分析热榜目录

热榜目录是一个ul标签，每一个热榜对象一个li子标签，分别包含热度，标题等内容。点击标题链接可以进入具体视频播放页面，目标分析如下所示：

2.分析视频播放页面

视频在video标签中播放，短视频播放的真实地址，在video的source子标签中，且为了保证播放质量，video下有三个source，任取其一即可，如下所示：

3. 分析弹出框

在爬取过程中，经过弹出需要登录的窗口，需要及时关闭掉，否则可能会导致找不到页面元素，从而爬取不成功。如下所示：

核心代码

经过以上分析，就可以编写爬虫代码了，如下所示：

1. 遍历热点目录

通过获取页面上对应的信息，解析出热点视频的目录，如下所示：

self.__driver.get(self.__url)
self.close_popup_window()
# 4. 最大化窗口
self.__driver.maximize_window()
time.sleep(self.__wait_sec)
# 打开以后，根据class=BHgRhxNh获取ul下的li
if self.checkIsExistsByClass(cls='BHgRhxNh'):
    # 获取
    hots = self.__driver.find_elements(by=By.CLASS_NAME, value='BHgRhxNh')
    hot_infos = []
    index = 0
    for hot in hots:
        hot_info = {}
        a = hot.find_element(by=By.TAG_NAME, value='a')
        href = a.get_attribute("href")
        text = a.text
        hot_info['url'] = href
        hot_info['text'] = text
        if index > 0:
            div = hot.find_element(by=By.CLASS_NAME, value='GsuT_hjh')
            if div is not None:
                hot_value = div.find_element(by=By.TAG_NAME, value='span').text
                hot_info['value'] = hot_value
        hot_infos.append(hot_info)
        index = index + 1
    print(hot_infos)

2. 获取真实短视频url

打开单个热点视频的url，并解析真实短视频播放url，如下所示：

def open_video_html(self, url):
    """打开具体视频的页面"""
    self.__driver.get(url=url)
    time.sleep(1)
    self.close_popup_window()  # 关闭弹窗
    video = self.__driver.find_element(by=By.TAG_NAME, value='video')
    source = video.find_element(by=By.TAG_NAME, value='source')
    src = source.get_attribute('src')
    return src

3. 下载视频

获取真实的url后，即可进行下载，如下所示：

def download_video(self, url, video_name):
    """根据视频源地址进行下载"""
    if os.path.exists(video_name):
        # 如果已重新下载过，则不需要再次下载
        return
    else:
        with open(video_name, 'wb') as fp:
            fp.write(requests.get(url).content)

4. 关闭弹出的登录窗口

在爬取过程中，经常弹出需要登录的遮罩窗口，需要进行关闭，如下所示：

def close_popup_window(self):
    try:
        login = self.__driver.find_element(by=By.ID, value='login-pannel')
        if login is not None:
            login.find_element(by=By.CLASS_NAME, value='dy-account-close').click()
    except BaseException as e:
        pass
    try:
        login = self.__driver.find_element(by=By.CLASS_NAME, value='GaDkStRD')
        if login is not None:
            btns = login.find_elements(by=By.TAG_NAME, value='button')
            for btn in btns:
                if btn.text == '取消':
                    btn.click()
                    break
    except BaseException as e:
        pass

5. 保存日志

在爬取成功后，对爬取的短视频的相关内容进行保存，如下所示：

def save_data(self, hot_infos):
    """
    保存数据
    :param res_list: 保存的内容文件
    :return:
    """
    t = time.strftime("%Y-%m-%d", time.localtime())
    with open(f'logs[{t}].json', 'a', encoding='utf-8') as f:
        res_list_json = json.dumps(hot_infos, ensure_ascii=False)
        f.write(res_list_json)

示例截图

程序开发完成后，运行示例如下所示：

爬取的视频保存在download目录下，如下所示：

总结

为什么会采用selenium进行本次短视频的爬取，而不直接采用requests库，原因如下：

在对目标网站进行分析的过程中，发现目标网站采用异步调用的方式数据获取，即网址请求获取的只是空壳，并没有真实的数据。
在对异步接口调用的url进行分析时发现，很多接口的url都具有时效性及有效性验证，如token，时间戳等，构造起来相当麻烦。

由于以上两点原因，结合selenium的特点及优势，所以最终采用selenium进行此次爬虫的最佳选择。

以上就是Python+Selenium实现短视频热点爬取的详细内容，更多关于Python Selenium热点爬取的资料请关注我们其它相关文章！

Python爬取某拍短视频

一.抓取目标目标网址:美拍视频二.工具使用开发环境:win10.python3.7 开发工具:pycharm.Chrome 工具包:requests.xpath.base64 三.重点学习内容爬虫采集数据的解析过程 js代码调试技巧 js逆向解析代码 Python代码的转换四.项目思路解析进入到网站的首页挑选你感兴趣的分类根据首页地址获取到进入详情页面的超链接的跳转地址找到对应加密的视频播放地址数据这个数据是静态的网页数据,通过js代码进行解码的找到对应的解析代码先找到视
Python+Selenium实现短视频自动上传与发布的实践

目录前言第一章:效果展示第二章:实现过程前言最近有人对自动上传与发布很感兴趣,都私下找我说了好几次了.今天,必须把他安排,必须实力宠粉. “本篇依次介绍目前主流的短视频平台(抖音.快手.B站.小红书.微视.百度好看视频.西瓜视频.微信视频号.搜狐视频.一点号.大风号.趣头条等)的短视频自动发布,希望帮助大家更方便.高效的来进行自媒体的创作与管理. 第一章:效果展示 ① 效果展示 ② 素材展示一个为视频,另一个为像素大小不小于视频的封面. 第二章:实现过程 ① 调用已启用的浏览器通过
Python+selenium 自动化快手短视频发布的实现过程

第一章:效果展示 ① 效果展示 ② 素材展示一个为视频,另一个为像素大小不小于视频的封面. 第二章:实现过程 ① 调用已启用的浏览器通过调用已启用的浏览器,可以实现直接跳过每次的登录过程. from selenium import webdriver options = webdriver.ChromeOptions() options.add_experimental_option("debuggerAddress", "127.0.0.1:5003") dr
Python+selenium实现趣头条的视频自动上传与发布

目录效果展示效果展示素材展示实现过程调用已启用的浏览器上传视频和封面完整源码展示补充 Python+selenium操作已启用的chrome浏览器 Python+selenium实现自动导入.上传外部文件效果展示效果展示素材展示一个为视频,另一个为像素大小不小于视频的封面. 实现过程调用已启用的浏览器通过调用已启用的浏览器,可以实现直接跳过每次的登录过程. 使用方法可以参考补充内容 from selenium import webdriver options = w
Python爬虫实战之虎牙视频爬取附源码

目录知识点开发环境分析目标url 开始代码最开始还是线导入所需模块数据请求获取视频标题以及url地址获取视频id 保存数据调用函数运行代码,得到数据知识点爬虫基本流程 re正则表达式简单使用 requests json数据解析方法视频数据保存开发环境 Python 3.8 Pycharm 爬虫基本思路流程: (重点) [无论任何网站任何数据内容都是按照这个流程去分析] 1.确定需求 (爬取的内容是什么东西?) 都通过开发者工具进行抓包分析分析视频播放url地址是
Python selenium抓取虎牙短视频代码实例

今天闲着没事,用selenium抓取视频保存到本地,只爬取了第一页,只要小于等于5分钟的视频... 为什么不用requests,没有为什么,就因为有些网站正则和xpath都提取不出来想要的东西,要么就是接口出来的数据加密,要么就因为真正的视频url规律难找! selenium几行代码轻轻松松就搞定! 安装selenium库,设置无界面模式代码如下: from selenium import webdriver from selenium.webdriver.chrome.options imp
Python+Selenium实现短视频热点爬取

目录涉及知识点目标分析 1. 分析热榜目录 2.分析视频播放页面 3. 分析弹出框核心代码 1. 遍历热点目录 2. 获取真实短视频url 3. 下载视频 4. 关闭弹出的登录窗口 5. 保存日志示例截图总结随着短视频的大火,不仅可以给人们带来娱乐,还有热点新闻时事以及各种知识,刷短视频也逐渐成为了日常生活的一部分.本文以一个简单的小例子,简述如何通过Pyhton依托Selenium来爬取短视频,仅供学习分享使用,如有不足之处,还请指正. 涉及知识点 1.selenium,作为浏览器
python爬虫利用selenium实现自动翻页爬取某鱼数据的思路详解

基本思路: 首先用开发者工具找到需要提取数据的标签列利用xpath定位需要提取数据的列表然后再逐个提取相应的数据: 保存数据到csv: 利用开发者工具找到下一页按钮所在标签: 利用xpath提取此标签对象并返回: 调用点击事件,并循环上述过程: 最终效果图: 代码: from selenium import webdriver import time import re class Douyu(object): def __init__(self): # 开始时的url self.start
python爬虫正则表达式使用技巧及爬取个人博客的实例讲解

这篇博客是自己<数据挖掘与分析>课程讲到正则表达式爬虫的相关内容,主要简单介绍Python正则表达式爬虫,同时讲述常见的正则表达式分析方法,最后通过实例爬取作者的个人博客网站.希望这篇基础文章对您有所帮助,如果文章中存在错误或不足之处,还请海涵.真的太忙了,太长时间没有写博客了,抱歉~ 一.正则表达式正则表达式(Regular Expression,简称Regex或RE)又称为正规表示法或常规表示法,常常用来检索.替换那些符合某个模式的文本,它首先设定好了一些特殊的字及字符组合,通过组合的&
python绕过图片滑动验证码实现爬取PTA所有题目功能附源码

最近学了python爬虫,本着学以致用的态度去应用在生活中.突然发现算法的考试要来了,范围就是PTA刷过的题.让我一个个复制粘贴?不可能,必须爬它! 先开页面,人傻了,PTA的题目是异步加载的,爬了个寂寞(空数据).AJAX我又不熟,突然想到了selenium. selenium可以模拟人的操作让浏览器自动执行动作,具体的自己去了解,不多说了.干货来了: 登录界面有个图片的滑动验证码破解它的最好方式就是用opencv,opencv巨强,自己了解. 思路开始: 1.将背景图片和可滑动的图片下载
Python爬虫实现的根据分类爬取豆瓣电影信息功能示例

本文实例讲述了Python爬虫实现的根据分类爬取豆瓣电影信息功能.分享给大家供大家参考,具体如下: 代码的入口: if __name__ == '__main__': main() #! /usr/bin/python3 # -*- coding:utf-8 -*- # author:Sirius.Zhao import json from urllib.parse import quote from urllib.request import urlopen from urllib.reque
Python爬虫入门教程01之爬取豆瓣Top电影

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理基本开发环境 Python 3.6 Pycharm 相关模块的使用 requests parsel csv 安装Python并添加到环境变量,pip安装需要的相关模块即可. 爬虫基本思路一.明确需求爬取豆瓣Top250排行电影信息电影名字导演.主演年份.国家.类型评分.评价人数电影简介二.发送请求 Python中的大量开源的模块使得编码变的特别简单,我们写爬虫第一个要了解的模
Python爬虫实战之使用Scrapy爬取豆瓣图片

使用Scrapy爬取豆瓣某影星的所有个人图片以莫妮卡·贝鲁奇为例 1.首先我们在命令行进入到我们要创建的目录,输入 scrapy startproject banciyuan 创建scrapy项目创建的项目结构如下 2.为了方便使用pycharm执行scrapy项目,新建main.py from scrapy import cmdline cmdline.execute("scrapy crawl banciyuan".split()) 再edit configuration 然后
python实战之Scrapy框架爬虫爬取微博热搜

前言:大概一年前写的,前段时间跑了下,发现还能用,就分享出来了供大家学习,代码的很多细节不太记得了,也尽力做了优化. 因为毕竟是微博,反爬技术手段还是很周全的,怎么绕过反爬的话要在这说都可以单独写几篇文章了(包括网页动态加载,ajax动态请求,token密钥等等,特别是二级评论,藏得很深,记得当时想了很久才成功拿到),直接上代码. 主要实现的功能: 0.理所应当的,绕过了各种反爬. 1.爬取全部的热搜主要内容. 2.爬取每条热搜的相关微博. 3.爬取每条相关微博的评论,评论用户的各种详细信息.
Selenium+Tesseract-OCR智能识别验证码爬取网页数据的实例

目录 1.项目需求描述 2.整体思路 3.功能实现 1.项目需求描述通过订单号获取某系统内订单的详细数据,不需要账号密码的登录验证,但有图片验证码的动态识别,将获取到的数据存到数据库. 2.整体思路 1.通过Selenium技术,无窗口模式打开浏览器 2.在输入框中动态输入订单号 3.将图片验证码截图保存到本地 4.通过Tesseract-OCR技术去本地识别验证码转化为文字 5.将获取的验证码输入输入框 6.点击查询获取列表数据 3.功能实现 1.下载并安装Google浏览器,安装Googl