利用python爬取m3u8格式视频的具体实现

2025-01-31 22:47:57

m3u8原理

当我们在网页播放视频时，网页向服务器发起一个以.m3u8结尾的连接请求，服务器会将具体的.ts文件链接路径发送给网页，网页接收这写链接路径，并向这些链接发送请求，请求到的资源就是.ts视频文件，他和我们常见的mp4文件只是封装格式的不同，而且.ts文件的大小很小，我爬取的.ts文件只有六秒的视频文件。之后网页将这些.ts文件整合在一起并进行播放。

脚本环境

python3.8、win 10

爬取步骤

python要做的事情

1、选择可以爬取的视频网站

2、获取.m3u8的URL路径

3、通过requests.get获取.ts文件路径

4、保存.ts文件

5、合并.ts文件为mp4格式

步骤的具体实现

1、视频网站：https://www.3s8m.com/

2、随便选择一个视频进入播放页面，按下F12或者Fn+F12，打开审查元素，选择网络，刷新页面，暂停视频，在审查元素的网络页面选择XHR(没有可以直接在全部搜索m3u8)，找到以m3u8结尾的数据包，点击获取URL

3、python 编写代码请求该URL，打印返回的数据；代码如下

import requests
url = “用第二部找到的URL填入”
results = requests.get(url) #发送get请求
results.encoding=“utf8” #设置编码格式，从网页源码中的head中可以看编码格式，这步不关键
print(results.text) #打印结果
results.close() #关闭

4、可以发现第3步中打印结果有很多URL地址，这些地址就是ts文件的地址，python下载ts文件

import request
url =“填入获取到的ts文件的URL”
results = requests.get(url)
results.encoding =“utf8”
with open("./a.ts",“wb”) as file:
file.write(results.content)
results.close()

5、合并全部的ts文件，调用python的os库，使用系统命令(copy /b a.ts+b.ts a.mp4)进行合并

import os
os.system(“copy /b a.ts+b.ts a.mp4”)

python细节处理说明

1、上述是通过手动查找获取的m3u8地址，那么为什么不用python去爬取，如果用python去爬取那么就需要对爬取的内容进行分析检索，我使用正则进行检索，也可以用xpath、bs4等方式进行检索。

2、一个m3u8地址会对应多个ts文件地址，我们应该对同一个m3u8的ts地址进行整体保存，下载后进行整合在一起变为一个m3u8对应一个视频

3、我们在浏览上述提供的网站时会发现，有些资源有不通播放源，有些版源不能用，那么我们在进行检索的时候可以多加一个进行源切换的操作

4、至于保存的文件名、文件路径这些自己返回，具体的代码下面会提供一个参考。

参考代码

使用代码的前提条件及说明：

1、在代码文件的目录下建一个名为ts_path的文件夹用于保存爬取过程中的临时文件(.ts文件)

2、保存的视频会存放与代码文件同一目录线下，视频名称为集数.mp4

3、视频下载完，ts_path中的文件需要手动删除，由于之前使用os.system进行删除，误删了我不少源码，决定不加删除代码防止意外

4、代码只是用与上述提供的网站，其他网站需要自己进行修改

import requests
import re
import os

URL = "输入URL" #视频URL
resources = 0   #播放源选择

episode_urls = [] #存放章节URL
episode_names = [] #存放章节名称
m3u8_urls = []  #存放ts文件的URL

def get_episode(URL,resources): #获取章节名和路径
    results = requests.get(URL)
    results.encoding = "utf-8"
    all = results.text
    results.close()
    episode = re.findall('<ul class="dslist-group">.*?</ul>', all, flags=re.S)
    b = re.finditer('href=".*?</a>', episode[resources],flags=re.S)
    for i in b:
        i = i[0].replace('href="', "").replace('"', "")
        episode_urls.append("https://www.3s8m.com" + i.split('>', 1)[0])
        episode_names.append(i.split('>', 1)[1].replace("</a>", ""))
    print(episode_names)
    print(episode_urls)

def get_ts(episode_urls): #获取ts文件路径
    for i in episode_urls:
        results = requests.get(i)
        results.encoding = "utf8"
        results = re.search('https:.*?\.m3u8', str(results.text),flags=re.S)
        m3u8_urls.append(results[0].replace("\\", ""))
    print(m3u8_urls)

def download_video(episode_names, m3u8_urls): #下载ts文件并整合为mp4文件
    for i in range(len(m3u8_urls)):
        try:
            print(m3u8_urls[i])
            results = requests.get(m3u8_urls[i])
            results.encoding = "utf8"
            all = re.finditer("https://.*?#", results.text, flags=re.S)
            results.close()
            cmd = []
            n = 0
            for j in all:
                n += 1
                ts_url = j[0].replace("\n#", "")
                cmd.append(f'{n}.ts')
                results = requests.get(ts_url,)
                results.encoding = "utf8"
                with open(f"./ts_path/{n}.ts", "wb") as file:
                    file.write(results.content)
                results.close()
                print(f"{n}.ts 下载完成")
            os.chdir("ts_path")
            if ("ts_path" in os.getcwd()):
                cmd = "+".join(cmd)
                cmd = f"copy /b {cmd} {episode_names[i]}.mp4"
                os.system(cmd)
                os.system(f"move {episode_names[i]}.mp4 ../")
            os.chdir("../")
            print(f"{episode_names[i]}.mp4 下载成功")
        except Exception as e:
            print(e)
            exit(0)

if __name__ == '__main__':
    get_episode(URL, resources)
    get_ts(episode_urls)
    download_video(episode_names, m3u8_urls)

总结

到此这篇关于利用python爬取m3u8格式视频的文章就介绍到这了,更多相关python爬取m3u8格式视频内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

python爬取基于m3u8协议的ts文件并合并

前言简单学习过网络爬虫,只是之前都是照着书上做并发,大概能理解,却还是无法自己用到自己项目中,这里自己研究实现一个网页嗅探HTML5播放控件中基于m3u8协议ts格式视频资源的项目,并未考虑过复杂情况,毕竟只是练练手. 源码 # coding=utf-8 import asyncio import multiprocessing import os import re import time from math import floor from multiprocessing import
python爬取m3u8连接的视频

本文为大家分享了python爬取m3u8连接的视频方法,供大家参考,具体内容如下要求:输入m3u8所在url,且ts视频与其在同一路径下 #!/usr/bin/env/python #_*_coding:utf-8_*_ #Data:17-10-08 #Auther:苏莫 #Link:http://blog.csdn.net/lingluofengzang #PythonVersion:python2.7 #filename:download_movie.py import os import
Python爬虫小练习之爬取并分析腾讯视频m3u8格式

目录普通爬虫正常流程: 环境介绍分析网站开始代码导入模块数据请求提取数据遍历保存数据运行代码普通爬虫正常流程: 数据来源分析发送请求获取数据解析数据保存数据环境介绍 python 3.8 pycharm 2021专业版 [付费VIP完整版]只要看了就能学会的教程,80集Python基础入门视频教学点这里即可免费在线观看分析网站先打开开发者工具,然后搜索m3u8,会返回给你很多的ts的文件,像这种ts文件,就是视频的片段我们可以复制url地址,在新的浏览页打开
利用python爬取m3u8格式视频的具体实现

目录 m3u8原理脚本环境爬取步骤步骤的具体实现 python细节处理说明参考代码总结 m3u8原理当我们在网页播放视频时,网页向服务器发起一个以.m3u8结尾的连接请求,服务器会将具体的.ts文件链接路径发送给网页,网页接收这写链接路径,并向这些链接发送请求,请求到的资源就是.ts视频文件,他和我们常见的mp4文件只是封装格式的不同,而且.ts文件的大小很小,我爬取的.ts文件只有六秒的视频文件.之后网页将这些.ts文件整合在一起并进行播放. 脚本环境 python3.8.win
python 爬取腾讯视频评论的实现步骤

一.网址分析查阅了网上的大部分资料,大概都是通过抓包获取.但是抓包有点麻烦,尝试了F12,也可以获取到评论.以电视剧<在一起>为例子.评论最底端有个查看更多评论猜测过去应该是 Ajax 的异步加载. 网上的大部分都是构建评论的网址,通过 requests 获取,正则表达式进行数据处理.本文也利用该方法进行数据处理,其实利用 scrapy 会更简单. 根据前辈给出的经验,顺利找到了评论所在的链接. 在新标签中打开,该网址的链接. 评论都在"content":"xx
python爬取抖音视频的实例分析

现在抖音的火爆程度,大家都是有目共睹的吧,之前小编在网络上发现好玩的事情,就是去爬取一些网站,因此,也考虑能否进行抖音上的破案去,在实际操作以后,真的实现出来了,利用自动化工具,就可以轻松实现了,后有小伙伴提出把appium去掉瘦身之后也是可以实现的,那么看下详细操作内容吧. 1.mitmproxy/mitmdump抓包 import requests path = 'D:/video/' num = 1788 def response(flow): global num target_urls
利用python爬取城市公交站点

目录页面分析爬虫数据清洗 Excel PQ 数据清洗 python数据清洗 QGIS坐标纠偏导入csv文件坐标纠偏总结利用python爬取城市公交站点页面分析 https://guiyang.8684.cn/line1 爬虫我们利用requests请求,利用BeautifulSoup来解析,获取我们的站点数据.得到我们的公交站点以后,我们利用高德api来获取站点的经纬度坐标,利用pandas解析json文件.接下来开干,我推荐使用面向对象的方法来写代码. import requ
使用python爬取抖音视频列表信息

如果看到特别感兴趣的抖音vlogger的视频,想全部dump下来,如何操作呢?下面介绍介绍如何使用python导出特定用户所有视频信息抓包分析 Chrome Deveploer Tools Chrome 浏览器开发者工具在抖音APP端,复制vlogger主页地址, 比如: http://v.douyin.com/kGcU4y/ , 在PC端用chrome浏览器打卡,并模拟手机,这里选择iPhone, 然后把复制的主页地址,放到浏览器进行访问,页面跳转到 https://www.iesdouy
Python爬取腾讯视频评论的思路详解

一.前提条件安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于代理服务器有Python的编译环境,一般选择Python3.0及以上声明:本次爬取腾讯视频里 <最美公里>纪录片的评论.本次爬取使用的浏览器是谷歌浏览器二.分析思路 1.分析评论页面根据上图,我们可以知道:评论使用了Ajax异步刷新技术.这样就不能使用以前分析当前页面找出规律的手段了.因为展示的页面只有部分评论,还有大量的评论没有被刷新出
利用python爬取有道词典的方法

前言大家好最近python爬虫有点火啊,啥python爬取马保国视频--我也来凑个热闹,今天我们来试着做个翻译软件--不是不是,说错了,今天我们来试着提交翻译内容并爬取翻译结果主要内容材料 1.Python 3.8.4 2.电脑一台(应该不至于有"穷苦人家"连一台电脑都没有吧) 3.Google浏览器(其他的也行,但我是用的Google) 写程序前准备打开Google浏览器,找的有道词典的翻译网页(http://fanyi.youdao.com/) 打开后摁F12打开开发
利用Python 爬取股票实时数据详情

东方财富网地址如下: http://quote.eastmoney.com/center/gridlist.html#hs_a_board 我们通过点击该网站的下一页发现,网页内容有变化,但是网站的 URL 却不变,也就是说这里使用了 Ajax 技术,动态从服务器拉取数据,这种方式的好处是可以在不重新加载整幅网页的情况下更新部分数据,减轻网络负荷,加快页面加载速度. 我们通过 F12 来查看网络请求情况,可以很容易的发现,网页上的数据都是通过如下地址请求的 http://38.push2.eas
利用python爬取散文网的文章实例教程

本文主要给大家介绍的是关于python爬取散文网文章的相关内容,分享出来供大家参考学习,下面一起来看看详细的介绍: 效果图如下: 配置python 2.7 bs4 requests 安装用pip进行安装 sudo pip install bs4 sudo pip install requests 简要说明一下bs4的使用因为是爬取网页所以就介绍find 跟find_all find跟find_all的不同在于返回的东西不同 find返回的是匹配到的第一个标签及标签里的内容 find_all返