用python制作词云视频详解

2025-02-19 06:39:15

使用到的第三方库

Package         Version
--------------- ---------
baidu-aip       2.2.18.0
jieba           0.42.1
moviepy         1.0.3
numpy           1.20.2
opencv-python   4.5.1.48
Pillow          8.2.0
requests        2.25.1
wordcloud       1.8.1
you-get         0.4.1520

B站弹幕爬取

思路

通过视频BV号请求cid，再使用cid请求弹幕文件，最后使用正则表达式去匹配弹幕文本，将匹配出来的结果保存在本地供之后使用，代码及思路比较简单，就不做过多赘述

实现

cid请求链接：https://api.bilibili.com/x/web-interface/view?bvid=

弹幕请求链接：https://api.bilibili.com/x/v1/dm/list.so?oid=

参考代码

    def get_cid(cls, bv):
        url = "https://api.bilibili.com/x/web-interface/view?bvid=" + str(bv)
        response = requests.get(url)
        dirt = json.loads(response.text)
        aid = dirt['data']['cid']
        return str(aid)
    def get_barrage(cls, bv, to_file_path):
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",
        }
        cid = cls.get_cid(bv)
        response = requests.get("https://api.bilibili.com/x/v1/dm/list.so?oid=" + cid, headers=headers)
        html_doc = response.content.decode('utf-8')
        regex = re.compile("<d.*?>(.*?)</d>")
        DanMu = regex.findall(html_doc)
        with open(to_file_path, "w", encoding="utf_8")as f:
            for i in DanMu:
                f.write(i)
                f.write("\n")

视频下载

思路

使用第三方开源库you-get进行下载

you-get支持的音视频网站

Site	URL	Videos?	Images?	Audios?
YouTube	https://www.youtube.com/	✓
Twitter	https://twitter.com/	✓	✓
VK	http://vk.com/	✓	✓
Vine	https://vine.co/	✓
Vimeo	https://vimeo.com/	✓
Veoh	http://www.veoh.com/	✓
Tumblr	https://www.tumblr.com/	✓	✓	✓
TED	http://www.ted.com/	✓
SoundCloud	https://soundcloud.com/			✓
SHOWROOM	https://www.showroom-live.com/	✓
Pinterest	https://www.pinterest.com/		✓
MTV81	http://www.mtv81.com/	✓
Mixcloud	https://www.mixcloud.com/			✓
Metacafe	http://www.metacafe.com/	✓
Magisto	http://www.magisto.com/	✓
Khan Academy	https://www.khanacademy.org/	✓
Internet Archive	https://archive.org/	✓
Instagram	https://instagram.com/	✓	✓
InfoQ	http://www.infoq.com/presentations/	✓
Imgur	http://imgur.com/		✓
Heavy Music Archive	http://www.heavy-music.ru/			✓
Freesound	http://www.freesound.org/			✓
Flickr	https://www.flickr.com/	✓	✓
FC2 Video	http://video.fc2.com/	✓
Facebook	https://www.facebook.com/	✓
eHow	http://www.ehow.com/	✓
Dailymotion	http://www.dailymotion.com/	✓
Coub	http://coub.com/	✓
CBS	http://www.cbs.com/	✓
Bandcamp	http://bandcamp.com/			✓
AliveThai	http://alive.in.th/	✓
interest.me	http://ch.interest.me/tvn	✓
755 ナナゴーゴー	http://7gogo.jp/	✓	✓
niconico ニコニコ動画	http://www.nicovideo.jp/	✓
163 网易视频网易云音乐	http://v.163.com/ http://music.163.com/	✓		✓
56网	http://www.56.com/	✓
AcFun	http://www.acfun.cn/	✓
Baidu 百度贴吧	http://tieba.baidu.com/	✓	✓
爆米花网	http://www.baomihua.com/	✓
bilibili 哔哩哔哩	http://www.bilibili.com/	✓	✓	✓
豆瓣	http://www.douban.com/	✓		✓
斗鱼	http://www.douyutv.com/	✓
凤凰视频	http://v.ifeng.com/	✓
风行网	http://www.fun.tv/	✓
iQIYI 爱奇艺	http://www.iqiyi.com/	✓
激动网	http://www.joy.cn/	✓
酷6网	http://www.ku6.com/	✓
酷狗音乐	http://www.kugou.com/			✓
酷我音乐	http://www.kuwo.cn/			✓
乐视网	http://www.le.com/	✓
荔枝FM	http://www.lizhi.fm/			✓
懒人听书	http://www.lrts.me/			✓
秒拍	http://www.miaopai.com/	✓
MioMio弹幕网	http://www.miomio.tv/	✓
MissEvan 猫耳FM	http://www.missevan.com/			✓
痞客邦	https://www.pixnet.net/	✓
PPTV聚力	http://www.pptv.com/	✓
齐鲁网	http://v.iqilu.com/	✓
QQ 腾讯视频	http://v.qq.com/	✓
企鹅直播	http://live.qq.com/	✓
Sina 新浪视频微博秒拍视频	http://video.sina.com.cn/ http://video.weibo.com/	✓
Sohu 搜狐视频	http://tv.sohu.com/	✓
Tudou 土豆	http://www.tudou.com/	✓
阳光卫视	http://www.isuntv.com/	✓
Youku 优酷	http://www.youku.com/	✓
战旗TV	http://www.zhanqi.tv/lives	✓
央视网	http://www.cntv.cn/	✓
Naver 네이버	http://tvcast.naver.com/	✓
芒果TV	http://www.mgtv.com/	✓
火猫TV	http://www.huomao.com/	✓
阳光宽频网	http://www.365yg.com/	✓
西瓜视频	https://www.ixigua.com/	✓
新片场	https://www.xinpianchang.com/	✓
快手	https://www.kuaishou.com/	✓	✓
抖音	https://www.douyin.com/	✓
TikTok	https://www.tiktok.com/	✓
中国体育(TV)	http://v.zhibo.tv/ http://video.zhibo.tv/	✓
知乎	https://www.zhihu.com/	✓

# 获取视频信息
you-get -i https://www.bilibili.com/video/BV1f4411M7QC
# 下载视频
you-get --format=flv -o E:\Desktop\output https://www.bilibili.com/video/BV1f4411M7QC

视频、音频剪辑和音频提取

思路

这部分的需求非常简单，就是剪下视频或者音频中的某一段并保存

Python有一个叫moviepy的第三方库，可以实现视频的剪辑、拼接，音频的剪辑、拼接、提取，以及音视频的合并等操作

参考代码

    def cut_video(cls, origin_file_path, to_file_path, start, end):
        """
        视频剪辑
        :param origin_file_path: 原视频文件路径
        :param to_file_path: 保存路径
        :param start: 起始时间点
        :param end: 结束时间点
        """
        clip = VideoFileClip(origin_file_path).subclip(start, end)
        clip.write_videofile(to_file_path)
    def cut_audio(cls, origin_file_path, to_file_path, start, end):
        """
        音频剪辑
        :param origin_file_path: 原视频文件路径
        :param to_file_path: 保存路径
        :param start: 起始时间点
        :param end: 结束时间点
        """
        clip = AudioFileClip(origin_file_path).subclip(start, end)
        clip.write_audiofile(to_file_path)
    def get_audio_from_video(cls, video_file_path, to_file_path):
        """
        音频提取
        :param video_file_path: 视频文件路径
        :param to_file_path: 音频文件路径
        """
        video = VideoFileClip(video_file_path)
        video.audio.write_audiofile(to_file_path)

视频帧提取

思路

使用opencv-python(cv2)打开视频文件并按帧读取，再将每一帧保存到文件夹中

参考代码

    def split(cls, from_file_path, to_folder_path, frames=0):
        """
        视频按帧读取并保存
        :param from_file_path: 视频路径
        :param to_folder_path: 保存路径
        :param frames: 保存帧数(张数)，为0则保存所有帧
        """
        vc = cv2.VideoCapture(from_file_path)    # cv2打开视频文件
        frames_count = vc.get(7)    # 获取视频总帧数
        c = 0
        if vc.isOpened():
            ret, frame = vc.read()          # 按帧读取视频
        else:
            ret = False
        while ret:
            if 0 < frames == c:
                break
            ret, frame = vc.read()  # 读取每一视频帧，并保存至图片中
            cv2.imwrite(os.path.join(to_folder_path, '{}.jpg'.format(c)), frame)
            c += 1
            if c == frames_count - 1:
                break
            print('第 {} 张图片存放成功！'.format(c))

图片二值化

思路

图片二值化这里有两种思路，一种是使用opencv，还有一种方法是使用百度智能云的人像分割接口。

两种方法各有优劣：

使用opencv的速度快，但是只能对整张图片二值化，无法有效提取出图片主体部分，只适用于纯色背景及轮廓分明的图片，当图片中有背景或者其他干扰画面时，效果不理想，达不到做词云遮罩的效果
百度的人像分割接口可以将图片中的人物抠出来，单独对人物进行二值化，但是速度很慢(处理速度慢，还限制接口并发数)，一千张图片往往需要一两个小时

所以具体使用时需要根据视频的情况进行切换

下面为两周处理方法的不同效果(图一为cv2，图二为百度人像分割)

参考代码

    def binary_option_cv2(cls, from_file_path, to_file_path):
        """
        图片二值化并保存(使用cv2)
        :param from_file_path: 原图路径
        :param to_file_path: 二值化图路径
        """
        img = cv2.imread(from_file_path)
        gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
        new_gray = np.uint8((255 * (gray / 255.0) ** 1.4))
        dst = cv2.adaptiveThreshold(new_gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 15, 1)
        cv2.medianBlur(dst, 5)
        cv2.imwrite(to_file_path, dst)
    def binary_option_baidu(cls, from_file_path, to_file_path):
        """
        图片二值化并保存(使用百度人像分割)
        :param from_file_path: 原图路径
        :param to_file_path: 二值化图路径
        """
        def get_file_content(filePath):
            with open(filePath, 'rb') as fp:
                return fp.read()
        height, width, bgr = cv2.imread(from_file_path).shape
        image = get_file_content(from_file_path)
        cls.client.bodySeg(image)
        res = cls.client.bodySeg(image)
        labelmap = base64.b64decode(res['labelmap'])
        labelimg = np.frombuffer(labelmap, np.uint8)  # 转化为np数组 0-255
        labelimg = cv2.imdecode(labelimg, 1)
        labelimg = cv2.resize(labelimg, (width, height), interpolation=cv2.INTER_NEAREST)
        img_new = np.where(labelimg == 1, 255, labelimg)  # 将 1 转化为 255
        cv2.imwrite(to_file_path, img_new)

词云图片生成

思路

使用wordcloud库，并使用前面爬取的B站弹幕作为词云内容，二值化图片作为遮罩

原图与词云图拼接和图片合并生成视频

思路

使用numpy拼接图片，使用cv2将拼接的图片写入视频流并保存

为了将视频与音轨对齐，生成视频时需要设置合适的视频帧率（与原视频保持一致），原视频帧率可以使用播放器查看，也可以使用cv2获取

参考代码

    def joint(cls, origin_folder, word_cloud_folder, to_file_path):
        """
        批量拼接图片并合成视频
        :param origin_folder: 原图文件夹
        :param word_cloud_folder: 词云图片文件夹
        :param to_file_path: 保存路径
        """
        num_list = [int(str(i).split('.')[0]) for i in os.listdir(origin_folder)]
        fps = 30  # 视频帧率，需要根据原视频帧率做调整
        height, width, _ = cv2.imread(os.path.join(origin_folder, '{}.jpg'.format(num_list[0]))).shape  # 视频高度和宽度
        width = width * 2
        # 创建一个写入操作;
        video_writer = cv2.VideoWriter(to_file_path, cv2.VideoWriter_fourcc(*'mp4v'), fps, (width, height))
        for i in sorted(num_list):
            i = '{}.jpg'.format(i)
            ori_jpg = os.path.join(origin_folder, str(i))
            word_jpg = os.path.join(word_cloud_folder, str(i))
            # com_jpg = os.path.join(Composite_path,str(i))
            ori_arr = cv2.imread(ori_jpg)
            word_arr = cv2.imread(word_jpg)
            # 利用 Numpy 进行拼接
            com_arr = np.hstack((ori_arr, word_arr))
            video_writer.write(com_arr)  # 将每一帧画面写入视频流中
            print("{}写入视频流成功".format(ori_jpg))

音视频合并和视频导出

思路

与前面原图与词云图拼接和图片合并生成视频思路相似

参考代码

    def set_audio_for_video(cls, video_file_path, audio_file_path, to_file_path):
        """
        音视频合并
        :param video_file_path: 视频文件路径
        :param audio_file_path: 音频文件路径
        :param to_file_path: 保存路径
        """
        video = VideoFileClip(video_file_path)
        audio = AudioFileClip(audio_file_path)
        new_video = video.set_audio(audio)
        new_video.write_videofile(to_file_path)

最终效果

到此这篇关于用python制作词云视频详解的文章就介绍到这了,希望对大家有帮助，更多相关python视频请搜索我们以前的文章或继续浏览下面的相关文章,希望大家以后多多支持我们！

制作Python数字华容道的实现(可选择关卡)

由于比赛需要,我这边制作了一份数字华容道,内含有3,4,5阶的数字华容道,开头在壳窗口内选择,运用了随机数模块(random)和图形化用户界面(tkinter) 下面是程序完整代码 # coding:utf-8 # """ #============================================================ 作者:@Qss 2021年3月20日起草 2021年3月21日完工 2021年3月23日一次优化完成 2021年3月31日完成二次优
python tkinter制作用户登录界面的简单实现

本文只是几年前学习的tkinter的时候写的测试程序,十分之简陋,只是学习用,没什么其他用处. 学习一下莫烦Python的tkinter教程,根据教程制作了用户登录注册页.基本功能为检查登录.注册. 运行如下: 代码如下: # -*- coding: utf-8 -*- """ Created on Sun Aug 5 10:34:10 2018 @author: Administrator """ import tkinter a
基于python的matplotlib制作双Y轴图

一.函数介绍函数:twin()函数含义:表示共享x轴,共享表示的就是x轴使用同一刻度二.实际应用 2.1 实验数据展示数据表的名称:600001SH.xlsx 2.2 代码实现: 文章里使用到了Subplot()函数 # 导入相关数据包 import matplotlib.pyplot as plt import pandas as pd plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置字体 plt.rcParams['axes.unic
基于python制作简易版学生信息管理系统

一.前言本篇博客对于文件操作.字典.列表.匿名函数以及sort()等内置函数进行了系统的整理操作,以设计一个学生信息管理系统的形式展示,具体概念方法等会在代码后进行分析讲述,请读者仔细分析每一处解析,对于基础巩固将会有很大的帮助,其中还有每一块代码的设计思路图,逻辑分析会有一定的提升. 二.需求分析本程序需要用到os模板首先导入,并命名要存储信息的文件 import os File_Object_Name = 'Student_Inforation.txt' 三.主函数 def Main()
用Python制作灯光秀短视频的思路详解

一.引言 2021年4月8日武汉重启一周年,这是个值得庆祝的日子,作为一个武汉人和一个死宅程序员,老猿也想在这个日子留下点什么.想起武汉长江两岸的灯光秀,顿时有了主意,那就用程序实现一个武汉重启庆祝的灯光秀短视频吧,于是在4月7日晚开始构思和着手开发,4月8日晚终于顺利完成,并且通过使用OpenCV.OpenCV+Moviepy两种方式进行了实现. 本文介绍结合Python+OpenCV+Moviepy实现的思路和过程,Python+OpenCV实现的思路和过程将在另外的博文中单独介绍. 二.实
用python制作词云视频详解

使用到的第三方库 Package Version --------------- --------- baidu-aip 2.2.18.0 jieba 0.42.1 moviepy 1.0.3 numpy 1.20.2 opencv-python 4.5.1.48 Pillow 8.2.0 requests 2.25.1 wordcloud 1.8.1 you-get 0.4.1520 B站弹幕爬取思路通过视频BV号请求cid,再使用cid请求弹幕文件,最后使用正则表达式去匹配弹幕文本,将匹
利用python 制作词云特效详情

目录一.特效预览二.程序原理三.程序源码什么是词云词云其实就是就是对网络文本中出现频率较高的〝关键词〞予以视觉上的突出,形成〝关键词云层〞或〝关键词渲染〞从而过滤掉大量的文本信息词云也是数据可视化的一种形式.给出一段文本,根据关键词的出现频率而生成的一幅图像,人们只要扫一眼就能够明白其文章主旨. 一.特效预览词云图: 二.程序原理从给出的文本中,进行分词处理,然后将每个词出现的的频率进行统计从给出的背景图片上,读出图片信息将文本按照出现的频率进行画图,出现频
Python制作词云的方法

需求: 看到朋友圈有人发词云照片,感觉自己也可以玩一玩,于是乎借助wordcloud实现功能. 环境: MacOS 10.12 +Python 2.7 +Wordcloud Windows通用准备: 安装wordcloud $ pip install wordcloud SIP功能是Apple在OSX上推出的系统完整性保护功能,新版本的macOS直接用pip安装报错,在不关闭SIP功能的前提下,可以使用 $ pip install wordcloud --user -U 某些情况还会提示错误,
Python 制作词云的WordCloud参数用法说明

场景官方API: https://amueller.github.io/word_cloud/generated/wordcloud.WordCloud.html 实现 font_path : string #字体路径,需要展现什么字体就把该字体路径+后缀名写上,如:font_path = '黑体.ttf' width : int (default=400) #输出的画布宽度,默认为400像素 height : int (default=200) #输出的画布高度,默认为200像素 prefe
python爬虫线程池案例详解(梨视频短视频爬取)

python爬虫-梨视频短视频爬取(线程池) 示例代码 import requests from lxml import etree import random from multiprocessing.dummy import Pool # 多进程要传的方法,多进程pool.map()传的第二个参数是一个迭代器对象 # 而传的get_video方法也要有一个迭代器参数 def get_video(dic): headers = { 'User-Agent':'Mozilla/5.0 (Wind
python爬取热搜制作词云

环境:win10,64位,mysql5.7数据库,python3.9.7,ancod 逻辑流程: 1.首先爬取百度热搜,至少间隔1小时 2.存入文件,避免重复请求,如果本1小时有了不再请求 3.存入数据库,供词云包使用 1.爬取热搜,首先拿到url,使用的包urllib,有教程说urllib2是python2的. '''读取页面''' def readhtml(self,catchUrl): catchUrl=self.catchUrl if not catchUrl else catchUrl
python爬取豆瓣评论制作词云代码

目录一.爬取豆瓣热评二.制作词云总结一.爬取豆瓣热评该程序进行爬取豆瓣热评,将爬取的评论(json文件)保存到与该python文件同一级目录下注意需要下载这几个库:requests.lxml.json.time import requests from lxml import etree import json import time class Spider(object): def __init__(self): #seif.ure='https://movie.douban.co
Python读取word文本操作详解

本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下. 一,docx模块 Python可以利用python-docx模块处理word文档,处理方式是面向对象的.也就是说python-docx模块会把word文档,文档中的段落.文本.字体等都看做对象,对对象进行处理就是对word文档的内容处理. 二,相关概念如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念. 1,Docume
对python生成业务报表的实例详解

本文介绍一个用python结合xlsxwriter自动生成业务报表的程序.这里的业务数据采用的是指定的值,真实情况下需要其他程序来接入数据. # -*- coding: utf-8 -*- import xlsxwriter workbook = xlsxwriter.Workbook('chart.xlsx') worksheet = workbook.add_worksheet() # 指定类型为柱状图 chart = workbook.add_chart({'type': 'column'
对Python Pexpect 模块的使用说明详解

背景介绍 Expect 程序主要用于人机对话的模拟,就是那种系统提问,人来回答 yes/no ,或者账号登录输入用户名和密码等等的情况.因为这种情况特别多而且繁琐,所以很多语言都有各种自己的实现.最初的第一个 Expect 是由 TCL 语言实现的,所以后来的 Expect 都大致参考了最初的用法和流程,整体来说大致的流程包括: 运行程序程序要求人的判断和输入 Expect 通过关键字匹配根据关键字向程序发送符合的字符串 TCL 语言实现的 Expect 功能非常强大,我曾经用它实现了防火墙