利用Python爬虫给孩子起个好名字

2025-04-01 07:54:12

前言

相信每位家长都有所体会，因为要在孩子出生后两周内起个名字（需要办理出生证明了），估计很多人都像我一样，刚开始是很慌乱的，虽然感觉汉字非常的多随便找个字做名字都行，后来才发现真不是随便的事情，怎么想都发现不合适，于是到处翻词典、网上搜、翻唐诗宋词、诗经、甚至武侠小说，然而想了很久得到的名字，往往却受到家属的意见和反对，比如不顺口、和亲戚重名重音等问题，这样就陷入了重复寻找和否定的循环，越来越混乱。

于是我们再次回到网上各种搜索，找到很多网上给出的“男宝宝好听的名字大全”之类的文章，这些文章一下子给出几百上千个名字，看的眼花缭乱没法使用。而有不少的测名字的网站或者APP，输入名字能给出八字或者五格的评分，这样的功能感觉还挺好的能给个参考，然而要么我们需要一个个名字的输入进行测试、要么这些网站或者APP自身的名字很少、要么不能满足我们的需求比如限定字、要么就开始收费，到最后也找不到一个好用的。

于是我想做这么一个程序：

主要的功能，是给出批量名字提供参考，这些名字是结合宝宝的生辰八字算出来的；
自己可以扩充名字库，比如网上发现了一批诗经里的好名字，想看看怎么样，添加进去就能用；
可以限定名字的使用字，比如有的家族谱有限定，当前是“国”字辈，名字中必须有“国”字；
名字列表可以给出评分，这样倒排后就可以从高分往低分来看名字；

通过这种方式可以得到一份符合自己孩子生辰八字、自己的家谱限制、以及自己喜好的名字列表，并且该列表已经给出了分数用于参考，以此为基准我们可以挨个琢磨找出心仪的名字。当然如果有新的想法，随时可以把新的名字添加到词库里面，进行重新计算。

程序的代码结构

代码介绍：

/chinese-name-score 代码根目录
/chinese-name-score/main 代码目录
/chinese-name-score/main/dicts 词典文件目录
/chinese-name-score/main/dicts/names_boys_double.txt 词典文件，男孩的双字名字
/chinese-name-score/main/dicts/names_boys_single.txt 词典文件，男孩的单字名字
/chinese-name-score/main/dicts/names_girls_single.txt 词典文件，女孩的双字名字
/chinese-name-score/main/dicts/names_grils_double.txt 词典文件，女孩的单字名字
/chinese-name-score/main/outputs 输出数据目录
/chinese-name-score/main/outputs/names_girls_source_wxy.txt 输出的示例文件
/chinese-name-score/main/scripts 一些对词典文件做预处理的脚本
/chinese-name-score/main/scripts/unique_file_lines.py 设定词典文件，对词典中的名字去重和去空白行
/chinese-name-score/main/sys_config.py 程序的系统配置，包含爬取得目标URL、词典文件路径
/chinese-name-score/main/user_config.py 程序的用户配置，包括宝宝的年月日时分性别等设定
/chinese-name-score/main/get_name_score.py 程序的运行入口

使用代码的方法：

如果没有限定字，就找到词典文件names_boys_double.txt和names_grils_double.txt，可以在这里添加自己找到的一些名字列表，按行分割添加在最后即可；
如果有限定字，就找到词典文件names_boys_single.txt和names_girls_single.txt，在这里添加自己预先中意的单个字列表，按行分割添加在最后即可；
打开user_config.py，进行配置，配置项见下一节；
运行脚本get_name_score.py
在outputs目录中，查看自己的产出文件，可以复制到Excel，进行排序等操作；

程序的配置入口

程序的配置如下：

# coding:GB18030

"""
在这里写好配置
"""

setting = {}

# 限定字，如果配置了该值，则会取用单字字典，否则取用多字字典
setting["limit_world"] = "国"
# 姓
setting["name_prefix"] = "李"
# 性别，取值为 男 或者 女
setting["sex"] = "男"
# 省份
setting["area_province"] = "北京"
# 城市
setting["area_region"] = "海淀"
# 出生的公历年份
setting['year'] = "2017"
# 出生的公历月份
setting['month'] = "1"
# 出生的公历日子
setting['day'] = "11"
# 出生的公历小时
setting['hour'] = "11"
# 出生的公历分钟
setting['minute'] = "11"
# 结果产出文件名称
setting['output_fname'] = "names_girls_source_xxx.txt"

根据配置项setting[“limit_world”] ，系统自动来决定选用单字词典还是多字词典：

如果设置了该项，比如等于“国”，那么程序会组合所有的单字为名字用于计算，比如国浩和浩国两个名字都会计算；
如果不设置该项，保持空字符串，则程序只会读取*_double.txt的双字词典

程序的原理

这是一个简单的爬虫。大家可以打开http://life.httpcn.com/xingming.asp网站查看，这是一个POST表单，填写需要的参数，点提交，就会打开一个结果页面，结果页面的最下方包含了八字分数和五格分数。

如果想得到分数，就需要做两件事情，一是爬虫自动提交表单，获取结果页面；二是从结果页面提取分数；

对于第一件事情，很简单，urllib2即可实现（代码在/chinese-name-score/main/get_name_score.py）：

 post_data = urllib.urlencode(params)
 req = urllib2.urlopen(sys_config.REQUEST_URL, post_data)
 content = req.read()

这里的params是个参数dict，使用这种方式，就进行了POST带数据的提交，然后从content得到了结果数据。

params的参数设定如下：

 params = {}

 # 日期类型，0表示公历，1表示农历
 params['data_type'] = "0"
 params['year'] = "%s" % str(user_config.setting["year"])
 params['month'] = "%s" % str(user_config.setting["month"])
 params['day'] = "%s" % str(user_config.setting["day"])
 params['hour'] = "%s" % str(user_config.setting["hour"])
 params['minute'] = "%s" % str(user_config.setting["minute"])
 params['pid'] = "%s" % str(user_config.setting["area_province"])
 params['cid'] = "%s" % str(user_config.setting["area_region"])
 # 喜用五行，0表示自动分析，1表示自定喜用神
 params['wxxy'] = "0"
 params['xing'] = "%s" % (user_config.setting["name_prefix"])
 params['ming'] = name_postfix
 # 表示女，1表示男
 if user_config.setting["sex"] == "男":
  params['sex'] = "1"
 else:
  params['sex'] = "0"

 params['act'] = "submit"
 params['isbz'] = "1"

第二件事情，就是从网页中提取需要的分数，我们可以使用BeautifulSoup4来实现，其语法也很简单：

 soup = BeautifulSoup(content, 'html.parser', from_encoding="GB18030")
 full_name = get_full_name(name_postfix)

 # print soup.find(string=re.compile(u"姓名五格评分"))
 for node in soup.find_all("div", class_="chaxun_b"):
  node_cont = node.get_text()
  if u'姓名五格评分' in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名五格评分"))
   result_data['wuge_score'] = name_wuge.next_sibling.b.get_text()

  if u'姓名八字评分' in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名八字评分"))
   result_data['bazi_score'] = name_wuge.next_sibling.b.get_text()

通过该方法，就能对HTML解析，提取八字和五格的分数。

运行结果事例

1/1287 李国锦 姓名八字评分=61.5 姓名五格评分=78.6 总分=140.1
2/1287 李国铁 姓名八字评分=61 姓名五格评分=89.7 总分=150.7
3/1287 李国晶 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
4/1287 李鸣国 姓名八字评分=21 姓名五格评分=90.3 总分=111.3
5/1287 李柔国 姓名八字评分=64 姓名五格评分=78.3 总分=142.3
6/1287 李国经 姓名八字评分=21 姓名五格评分=89.8 总分=110.8
7/1287 李国蒂 姓名八字评分=22 姓名五格评分=87.2 总分=109.2
8/1287 李国登 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
9/1287 李略国 姓名八字评分=21 姓名五格评分=83.7 总分=104.7
10/1287 李国添 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
11/1287 李国天 姓名八字评分=22 姓名五格评分=83.7 总分=105.7
12/1287 李国田 姓名八字评分=22 姓名五格评分=93.7 总分=115.7

有了这些分数，我们就可以进行排序，是一个很实用的参考资料。

友情提示

分数跟很多因素有关，比如出生时刻、已经限定的字、限定字的笔画等因素，这些条件决定了有些名字不会分数高，不要受此影响，找出相对分数高的就可以了；
目前程序只能抓取一个网站的内容，地址是http://life.httpcn.com/xingming.asp
本列表仅供参考，看过一些文章，历史上很多名人伟人，姓名八字评分都非常低但是都建功立业，名字确实会有些影响但有时候朗朗上口就是最好的；
从本列表中选取名字之后，可以在百度、人人网等地方查查，以防有些负面的人重名、或者起这个名字的人太多了烂大街；
八字分数是中国传承，五格分数是日本人近代发明的，有时候也可以试试西方的星座起名法，并且奇怪的是八字和五个分数不同网站打分相差很大，更说明了这东西只供参考；

本文的代码已上传到github

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家学习或使用python能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对我们的支持。

使用PyV8在Python爬虫中执行js代码

前言可能很多人会觉得这是一个奇葩的需求,爬虫去好好的爬数据不就行了,解析js干嘛?吃饱了撑的? 搜索一下互联网上关于这个问题还真不少,但是大多数童鞋是因为自己的js基础太烂,要么是HTML基础烂,要么ajax基础烂,反正各方面都很烂.基础这么渣不好好去学基础写什么爬虫? 那你肯定要问了"请问我的朋友,你TM怎么也有这个需求?莫非你是个技术渣?" 非也非也,博主作为一个拥有3年多前端经验的攻城尸,怎么会被这个问题给难倒呢,老夫今天遇到的问题很显然没有那么简单. 问题那么博主到底是遇到
Python之日期与时间处理模块（date和datetime）

前言在开发工作中,我们经常需要用到日期与时间,如: 作为日志信息的内容输出计算某个功能的执行时间用日期命名一个日志文件的名称记录或展示某文章的发布或修改时间其他 Python中提供了多个用于对日期和时间进行操作的内置模块:time模块.datetime模块和calendar模块.其中time模块是通过调用C库实现的,所以有些方法在某些平台上可能无法调用,但是其提供的大部分接口与C标准库time.h基本一致.time模块相比,datetime模块提供的接口更直观.易用,功能也更加强大.
Python 遍历列表里面序号和值的方法（三种）

三种遍历列表里面序号和值的方法: 最近学习python这门语言,感觉到其对自己的工作效率有很大的提升,特在情人节这一天写下了这篇博客,下面废话不多说,直接贴代码 #!/usr/bin/env python # -*- coding: utf-8 -*- if __name__ == '__main__': list = ['html', 'js', 'css', 'python'] # 方法1 print '遍历列表方法1:' for i in list: print ("序号:%s 值:%s&
Python 模块EasyGui详细介绍

Python 模块EasyGui详细介绍前言: 在Windows想用Python开发一些简单的界面,所以找到了很容易上手的EasyGui库.下面就分享一下简单的使用吧. 参考的链接:官网Tutorial 接下来,我将从简单,到复杂一点点的演示如何使用这个模块.希望能给刚接触easygui的你一点帮助 :-) msgBox,ccbox,ynbox # coding:utf-8 # __author__ = 'Mark sinoberg' # __date__ = '2016/5/25' # __
Python中类型检查的详细介绍

前言大家都知道Python 是一门强类型.动态类型检查的语言.所谓动态类型,是指在定义变量时,我们无需指定变量的类型,Python 解释器会在运行时自动检查. 与静态类型语言(如 C 语言)相比,这不仅仅是少写了几个类型声明字符: #include <stdlib.h> #include <stdio.h> #define BUFF 100 char* greeting(char* name){ char* msg = (char *) malloc(sizeof(char) *
Python爬虫：通过关键字爬取百度图片

使用工具:Python2.7 点我下载 scrapy框架 sublime text3 一.搭建python(Windows版本) 1.安装python2.7 ---然后在cmd当中输入python,界面如下则安装成功 2.集成Scrapy框架----输入命令行:pip install Scrapy 安装成功界面如下: 失败的情况很多,举例一种: 解决方案: 其余错误可百度搜索. 二.开始编程. 1.爬取无反爬虫措施的静态网站.例如百度贴吧,豆瓣读书. 例如-<桌面吧>的一个帖子https:
利用python程序生成word和PDF文档的方法

一.程序导出word文档的方法将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用freemarker这样的模板引擎这样的方式.php中也有一些相应的方法,但在python中将web/html内容生成world文档的方法是很少的.其中最不好解决的就是如何将使用js代码异步获取填充的数据,图片导出到word文档中. 1. unoconv 功能: 1.支持将本地html文档转换为docx
关于Python面向对象编程的知识点总结

前言如果你以前没有接触过面向对象的编程语言,那你可能需要先了解一些面向对象语言的一些基本特征,在头脑里头形成一个基本的面向对象的概念,这样有助于你更容易的学习Python的面向对象编程. 接下来我们就来了解关于Python面向对象编程的知识点吧. 类与实例类是对象的定义,而实例是"真正的实物",它存放了类中所定义的对象的具体信息. 类.属性和方法命名规范类名通常由大写字母打头.这是标准惯例,可以帮助你识别类,特别是在实例化过程中(有时看起来像函数调用).还有,数据属性(变量或常量
利用Python爬虫给孩子起个好名字

前言相信每位家长都有所体会,因为要在孩子出生后两周内起个名字(需要办理出生证明了),估计很多人都像我一样,刚开始是很慌乱的,虽然感觉汉字非常的多随便找个字做名字都行,后来才发现真不是随便的事情,怎么想都发现不合适,于是到处翻词典.网上搜.翻唐诗宋词.诗经.甚至武侠小说,然而想了很久得到的名字,往往却受到家属的意见和反对,比如不顺口.和亲戚重名重音等问题,这样就陷入了重复寻找和否定的循环,越来越混乱. 于是我们再次回到网上各种搜索,找到很多网上给出的"男宝宝好听的名字大全"之类的文章,
利用Python爬虫实现抢购某宝秒杀商品

目录 1.导入对应类库实现对浏览器的操作 2.用代码实现购物流程 2.1 访问某宝 2.2登录某宝 2.3 进入购物车 2.4 选中所有商品 2.5 对比时间,提交结算(重点) 前言: 某宝秒杀,用毫秒级的精准度来抢购!你还在为各种活动秒杀抢不过别人而烦恼吗?接下来我们就来实现抢购某宝秒杀商品项目环境: 操作系统:Windows 10 开发环境:python3.7 IDE:Pycharm 自动化模块:Selenium 安装命令:pip install selenium 浏览器版本:Googl
利用Python爬虫爬取金融期货数据的案例分析

目录任务简介解决步骤代码实现总结大家好我是政胤今天教大家爬取金融期货数据任务简介首先,客户原需求是获取https://hq.smm.cn/copper网站上的价格数据(注:获取的是网站上的公开数据),如下图所示: 如果以该网站为目标,则需要解决的问题是“登录”用户,再将价格解析为表格进行输出即可.但是,实际上客户核心目标是获取“沪铜CU2206”的历史价格,虽然该网站也有提供数据,但是需要“会员”才可以访问,而会员需要氪金...... 数据的价值!!! 鉴于,客户需求仅仅是“沪铜
python爬虫框架scrapy实战之爬取京东商城进阶篇

前言之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧. 代码详解 1.首先应该构造请求,这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般是用yield返回. 代码如下: def start_requests(self): fo
python爬虫获取百度首页内容教学

由传智播客教程整理,我们这里使用的是python2.7.x版本,就是2.7之后的版本,因为python3的改动略大,我们这里不用它.现在我们尝试一下url和网络爬虫配合的关系,爬浏览器首页信息. 1.首先我们创建一个urllib2_test01.py,然后输入以下代码: 2.最简单的获取一个url的信息代码居然只需要4行,执行写的python代码: 3.之后我们会看到一下的结果 4. 实际上,如果我们在浏览器上打开网页主页的话,右键选择"查看源代码",你会发现,跟我们刚打印出来的是一模
Python爬虫爬取百度搜索内容代码实例

这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下搜索引擎用的很频繁,现在利用Python爬虫提取百度搜索内容,同时再进一步提取内容分析就可以简便搜索过程.详细案例如下: 代码如下 # coding=utf8 import urllib2 import string import urllib import re import random #设置多个user_agents,防止百度限制I
Python爬虫之爬取最新更新的小说网站

一.引言这个五一假期自驾回老家乡下,家里没装宽带,用手机热点方式访问网络.这次回去感觉4G信号没有以前好,通过百度查找小说最新更新并打开小说网站很慢,有时要打开好多个网页才能找到可以正常打开的最新更新.为了躲懒,老猿决定利用Python爬虫知识,写个简单应用自己查找小说最新更新并访问最快的网站,花了点时间研究了一下相关报文,经过近一天时间研究和编写,终于搞定,下面就来介绍一下整个过程. 二.关于相关访问请求及应答报文 2.1.百度搜索请求我们通过百度网页的搜索框进行搜索时,提交的url请求是
Python 利用scrapy爬虫通过短短50行代码下载整站短视频

近日,有朋友向我求助一件小事儿,他在一个短视频app上看到一个好玩儿的段子,想下载下来,可死活找不到下载的方法.这忙我得帮,少不得就抓包分析了一下这个app,找到了视频的下载链接,帮他解决了这个小问题. 因为这个事儿,勾起了我另一个念头,这不最近一直想把python爬虫方面的知识梳理梳理吗,干脆借机行事,正凑着短视频火热的势头,做一个短视频的爬虫好了,中间用到什么知识就理一理. 我喜欢把事情说得很直白,如果恰好有初入门的朋友想了解爬虫的技术,可以将就看看,或许对你的认识会有提升.如果有高手路过,
Python爬虫教程之利用正则表达式匹配网页内容

前言 Python爬虫,除了使用大家广为使用的scrapy架构外,还有很多包能够实现一些简单的爬虫,如BeautifulSoup.Urllib.requests,在使用这些包时,有的网络因为比较复杂,比较难以找到自己想要的代码,在这个时候,如果能够使用正则表达式,将能很方便地爬取到自己想要的数据. 何为正则表达式正则表达式是一种描述字符串排列的一种语法规则,通过该规则可以在一个大字符串中匹配出满足规则的子字符串.简单来说,就是给定了一个字符串,在字符串中找到想要的字符串,如一个电话号码,一个I
python爬虫利用selenium实现自动翻页爬取某鱼数据的思路详解

基本思路: 首先用开发者工具找到需要提取数据的标签列利用xpath定位需要提取数据的列表然后再逐个提取相应的数据: 保存数据到csv: 利用开发者工具找到下一页按钮所在标签: 利用xpath提取此标签对象并返回: 调用点击事件,并循环上述过程: 最终效果图: 代码: from selenium import webdriver import time import re class Douyu(object): def __init__(self): # 开始时的url self.start

利用Python爬虫给孩子起个好名字

相关推荐

随机推荐