Python爬取百度春节祝福语并生成心形词云

目录
  • 前言
  • 环境
  • 思路
  • 源代码

前言

最近刚好在看爬虫,就爬取一下春节祝福语,生成个词云玩一玩,大家有兴趣可以试试,会奉上源代码,很简单。效果图如下:

环境

环境:windows,

语言:python,python版本是3.7

所依赖的第三方包:

selenium----爬取网站,收集祝福语,这个库做UI自动化测试的估计会比较常见,我这里没采用使用requests库去爬取,用这个库的好处是爬取的过程中页面是实时可见的

wordcloud---用来生成词云

PIL---使词云生成想要的轮廓, 这里注意python3.7安装的时候应该使用pip install pillow

numpy---生成那种有轮廓的词云,还需要安装这个包,这个包将给出形状的图片表示为一个大型矩阵

jieba---词云生成的词默认是英文,因我们爬取的祝福语是中文,需要用这个库能识别中文,防止中文乱码

思路

(1)我爬取百度,搜索到关于春节祝福语,然后把这些祝福语存放到一个文件中。详细如下:

这里用到了selenium的webdriver, 使用的浏览器是firefox, 创建了一个firefox浏览器对象,然后firefox打开百度,定位到百度输入框,输入搜索词--新春祝福2022,浏览器页面显示如下

在这个页面,我模拟人工点击这第一个搜索出来的结果,跳到其他网址页面,如图

把这个页面的所有祝福语获取到,存到wishes.txt文件中

(2)然后用生成词云的相关库,来解析这个文件,生成词云 这里注意一点的是,生成词云使用的中文字体, font_path使用的是windows的字体库,这里你可以换成其他的字体

word_cloud = WordCloud(mask=mask, font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)

windows 字体库

源代码

可以修改背景颜色和字题颜色,例如

word_cloud = WordCloud(mask=mask, background_color='white',  contour_color='red', colormap='brg',
                       max_words=600,
                       font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)

重新运行之后,如图

支持的colormap字体颜色集,可参考以下链接

到此这篇关于Python爬取百度春节祝福语并生成心形词云的文章就介绍到这了,更多相关Python爬取祝福语内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python 将 QQ 好友头像生成祝福语的实现代码

    本文我们来看一下如何使用 Python 将 QQ 好友头像拼成"五一快乐"四个字.我们可以将整个实现过程分为两步:爬取 QQ 好友头像.利用好友头像生成文字. 爬取头像 爬取 QQ 好友头像我们需要借助于 QQ 邮箱,首先我们从浏览器上登录 QQ 邮箱,之后按 F12 键打开开发者工具并用鼠标选中 Network 选项,如下图所示: 再接着我们按 F5 键刷新一下网页,然后在 Filter 中输入 laddr_lastlist ,如下图所示: 我们再点 Name 下的链接,点击之后右侧

  • python爬取豆瓣评论制作词云代码

    目录 一.爬取豆瓣热评 二.制作词云 总结 一.爬取豆瓣热评 该程序进行爬取豆瓣热评,将爬取的评论(json文件)保存到与该python文件同一级目录下注意需要下载这几个库:requests.lxml.json.time import requests from lxml import etree import json import time class Spider(object): def __init__(self): #seif.ure='https://movie.douban.co

  • python爬取热搜制作词云

    环境:win10,64位,mysql5.7数据库,python3.9.7,ancod 逻辑流程: 1.首先爬取百度热搜,至少间隔1小时 2.存入文件,避免重复请求,如果本1小时有了不再请求 3.存入数据库,供词云包使用 1.爬取热搜,首先拿到url,使用的包urllib,有教程说urllib2是python2的. '''读取页面''' def readhtml(self,catchUrl): catchUrl=self.catchUrl if not catchUrl else catchUrl

  • python实现心型照片墙效果

    今天分享如何用python制作好看的心型照片墙,供大家参考,具体内容如下 效果 我们先来看下效果图,了解我们接下来要做的事情,我的效果图如下: 感觉如何?如果还满意,看完幸苦点个赞,因为看完你也可以做出来!同时也是对我的一种反馈 思路 上代码之前,我们先来理清下思路,只有过程理清楚了,才能得到自己的想要的结果 制作这个我觉得最难的地方就在于每个图片的位置该怎么计算,才能凑成一个心型.但是没关系,我们不去计算,毕竟我数学很差,我采用土办法,直接把它位置写死,虽然稍微有点麻烦,但是灵活~ 大家都知道

  • Python控制浏览器自动下载歌词评论并生成词云图

    目录 一.前言 二.准备工作 1.需要用的模块 2.驱动安装 三.下载歌词 四.词云图 一.前言 一首歌热门了,参与评论的人也很多,那我们有时候想看看评论,也只能看看热门的评论,大部分人都说的什么,咱也不知道呀~ 那本次咱们就把歌词给自动下载保存到电脑上,做成词云图给它分析分析… 二.准备工作 1.需要用的模块 本次用到的模块和包: re  # 正则表达式 内置模块 selenium  # 实现浏览器自动操作的 jieba  # 中文分词库 wordcloud  # 词云图库 imageio  

  • python小练习之爬鱿鱼游戏的评价生成词云

    目录 前言 分析页面 重要代码 selenium打开豆瓣短评页面 根据xpath来获取评论内容 实现跳转下一页 完整代码 成果 前言 鱿鱼游戏是什么,相信大家都不陌生了,虽然说博主没看过这部剧,但是还是对豆瓣的评论有点好奇,刚刚好近期学习了selenium,就当练练手了,来吧来吧,爬爬爬. 分析页面 还是老样子,兄弟们先打开我们最喜欢的google浏览器,点击F12,开启爬虫快乐模式 来到页面,如下图步骤,逐个点击 然后我们就发现这个页面确实很简单,每一条评论就是包在了class为short的s

  • Python爬取百度春节祝福语并生成心形词云

    目录 前言 环境 思路 源代码 前言 最近刚好在看爬虫,就爬取一下春节祝福语,生成个词云玩一玩,大家有兴趣可以试试,会奉上源代码,很简单.效果图如下: 环境 环境:windows, 语言:python,python版本是3.7 所依赖的第三方包: selenium----爬取网站,收集祝福语,这个库做UI自动化测试的估计会比较常见,我这里没采用使用requests库去爬取,用这个库的好处是爬取的过程中页面是实时可见的 wordcloud---用来生成词云 PIL---使词云生成想要的轮廓, 这里

  • python 爬取百度文库并下载(免费文章限定)

    import requests import re import json import os session = requests.session() def fetch_url(url): return session.get(url).content.decode('gbk') def get_doc_id(url): return re.findall('view/(.*).html', url)[0] def parse_type(content): return re.findall

  • Python爬取百度翻译实现中英互译功能

    目录 基础步骤 提交表单 获取响应并处理结果 消除警告 main.py sign.py 由于下学期报了一个Python的入门课程 所以寒假一直在自己摸索,毕竟到时候不能挂科,也是水水学分 最近心血来潮打算试试爬一下百度翻译 肝了一天终于搞出来了 话不多说,直接开搞(环境是Python 3.8 PyCharm Community Edition 2021.3.1) 基础步骤 百度翻译会识别到爬虫,所以得用headers隐藏一下 以chorme浏览器为例 在百度翻译页面点击鼠标右键,选择“检查”(或

  • 用Python爬取2022春节档电影信息

    目录 前提条件 相关介绍 实验环境 具体步骤 目标网站 分析网站 代码实现 输出结果 总结 前提条件 熟悉HTML基础语句 熟悉Xpath基础语句 相关介绍 Python是一种跨平台的计算机程序设计语言.是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言.最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的.大型项目的开发.Requests是一个很实用的Python HTTP客户端库.Pandas是一个Python软件包,提供快速,灵活和

  • Python爬取英雄联盟MSI直播间弹幕并生成词云图

    一.环境准备 安装相关第三方库 pip install jieba pip install wordcloud 二.数据准备 爬取对象:2021年5月23号,RNG夺冠直播间的弹幕信息 爬取对象路径: 方式1.根据开发者工具(F12),获取请求url.请求头.cookie等信息: 方式2:根据直播地址url,前+字符i 我们这里演示的是,采用方式2. 三.代码如下 import requests, re import jieba, wordcloud """ # 以下是练习代

  • python爬取百度贴吧前1000页内容(requests库面向对象思想实现)

    此程序以李毅吧为例子,以面向对象的设计思想实现爬取保存网页数据,暂时并未用到并发处理,以后有机会的话会加以改善 首先去百度贴吧分析贴吧地址栏中url后的参数,找到分页对应的参数pn,贴吧名字对应的参数kw 首先创建类,写好__init__方法,run方法,__init__方法里先可以直接写pass run方法里大概整理一下整体的思路 构造 url 列表,因为要爬取1000页,每页需对应一个url 遍历发送请求,获取响应 保存 将可封装的步骤封装到单独的方法,所以这里又增加了三个方法 get_ur

  • python爬虫之爬取百度翻译

    破解百度翻译 翻译是一件麻烦的事情,如果可以写一个爬虫程序直接爬取百度翻译的翻译结果就好了,可当我打开百度翻译的页面,输入要翻译的词时突然发现不管我要翻译什么,网址都没有任何变化,那么百度翻译要怎么爬取呢? 爬取百度翻译之前,我们先要明白百度翻译是怎么在不改变网址的情况下实现翻译的.百度做到这一点是用 AJAX 实现的,简单地说,AJAX的作用是在不重新加载网页的情况下进行局部的刷新. 了解了这一点,那么我们要怎么得到 AJAX 工作时请求的URL呢?老规矩,使用抓包工具. 爬虫步骤 在 "百度

  • 用Python实现爬取百度热搜信息

    目录 前言 库函数准备 数据爬取 网页爬取 数据解析 数据保存 总结 前言 何为爬虫,其实就是利用计算机模拟人对网页的操作 例如 模拟人类浏览购物网站 使用爬虫前一定要看目标网站可刑不可刑 :-) 可以在目标网站添加/robots.txt 查看网页具体信息 例如对天猫  可输入  https://brita.tmall.com/robots.txt 进行查看 User-agent 代表发送请求的对象 星号*代表任何搜索引擎 Disallow 代表不允许访问的部分 /代表从根目录开始 Allow代

  • Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

    本文实例讲述了Python实现爬取百度贴吧帖子所有楼层图片的爬虫.分享给大家供大家参考,具体如下: 下载百度贴吧帖子图片,好好看 python2.7版本: #coding=utf-8 import re import requests import urllib from bs4 import BeautifulSoup import time time1=time.time() def getHtml(url): page = requests.get(url) html =page.text

随机推荐