Python3从零开始搭建一个语音对话机器人的实现

2025-03-29 03:17:33

01-初心缘由

最近在研究语音识别方向，看了很多的语音识别的资料和文章，了解了一下语音识别的前世今生，其中包含了很多算法的演变，目前来说最流行的语音识别算法主要是依赖于深度学习的神经网络算法，其中RNN扮演了非常重要的作用，深度学习的应用真正让语音识别达到了商用级别。然后我想动手自己做一个语音识别系统，从GitHub上下载了两个流行的开源项目MASR和ASRT来进行复现，发现语音识别的效果没有写的那么好，其中如果要从零来训练自己的语言模型势必会非常耗时。

因此，就有了一个新的想法，借助一些开源的语音识别SDK来实现语音识别，来看看他们语音识别的效果如何。于是想到了百度和科大讯飞，然后就百度了一下，百度搜索举贤不避亲的给我推荐了百度AI开放平台！然后查看了百度语音识别的技术文档，发现对python的支持非常友好，而科大讯飞好像没有提供对python的接口支持，因而选定了百度。

虽然百度目前槽点很多，但是不得不说百度在AI方面的投入和开放是值得点赞的！百度的AI开放平台确实为开发者们带来很多的便利性，开放了非常多的AI服务，大家自行去注册使用，百度大脑AI开放平台地址：http://ai.baidu.com/ （PS:我确实没收广告费！）

经过体验发现百度的语音识别准确率高的吓人，完爆了GitHub上的开源项目N条街，然后在CSDN浏览各位博主的博客时发现，用百度语音识别的API和图灵机器人的API可以做一个实时语音对话的机器人，感觉特别兴奋，从而决定搭建一个自己的语音对话机器人。目前，我已经实现了我的语音对话机器人，因此特意来分享一下整个的实现过程和遇到的坑，让大家可以快速的构建你们的语音对话机器人。好啦，我们开始吧！

02-准备工作

（1）准备python开发环境

需要准备的python包包括：speech_recognition(语音识别包)、pyaudio(录音接口)、wave(打开录音文件并设置音频参数)、pyttst3(文本转语音)、json(解析json串)、requests(get/post)、baid_aip(百度语音识别的aip)。

（2）准备百度API

登录百度AI开放平台语音识别：https://ai.baidu.com/tech/speech/asr ，如果没有账号自己注册即可，免费试用哦。

点击技术文档：阅读语音识别的技术文档，重点查看API文档和Python SDK，了解如何在python中调用API接口。

点击立即使用：进入到服务界面，创建应用。记住最重要的App ID、API Key、Secret Key，后面调用时需要用到。

（3）准备图灵机器人：

图灵机器人大脑具备强大的中文语义分析能力，可准确理解中文含义并作出回应，是最擅长聊中文的机器人大脑，赋予软硬件产品自然流畅的人机对话能力。图灵机器人是中文语境下智能度最高的“机器人大脑”，是全球较为先进的机器人中文语言认知与计算平台，图灵机器人对中文语义理解准确率已达90%，可为智能化软硬件产品提供中文语义分析、自然语言对话、深度问答等人工智能技术服务。——源于百科（好吧，又和百度扯上点关系了。）

总之，就是需要你去图灵机器人官网http://www.turingapi.com/注册成功后，构建一个属于你的图灵机器人，用于后续将翻译后的文本内容对图灵机器人提问获取回答，然后我们通过TTS处理就可以获取语音输出了。

注册后创建自己的机器人，然后在机器人设置的终端设置中查看自己的apikey(这个key非常重要)，另外一定要把密钥开关关闭，不然后面在调用api时会报3001错误，无法调用图灵机器人（此处有坑，已填）！

图灵机器人未进行身份认证时，是不能够进行调用的，如果调用会出现“请求次数超限制”的问题，通过个人身份认证后，每天能够调用100次，这是免费版。100次当然是不够用的，如果你想要更多的服务，就只能购买会员了，99和299每月的套餐，具体看下图。如果是自己玩，那就免费版，如果是开发，可以考虑99的，如果是做一个产品，那就得企业采购了，咱们没那么土豪！

03-语音机器人的搭建思路

1、首先明确我们要实现的目标，是要实现纯语音对话聊天，不需要输入文字交流。我们实时说，机器人实时回复，真正实现语音交互对话。

2、整个过程的实现流程是这样的，我们说一句话，通过录音保存为语音文件，然后调用百度API实现语音转文本STT，再然后调用图灵机器人API将文本输入得到图灵机器人的回复，最后将回复的文本转成语音输出TTS，就这样我们就实现了和机器人的语音对话了！是不是有点绕，来个流程图吧！

3、语音对话机器人的构建具体流程图，就是各种掉API，千万不要觉得头晕哦，思路清晰才能走下去。

04-语音生成音频文件

语音生产文件就需要进行录音，将我们说的话保存下来，至于保存的格式我一般都是保存为wav，其他格式支持pcm，不太建议mp3，因为需要多次转换。【百度服务端会将非pcm格式，转为pcm格式，因此使用wav会有额外的转换耗时，但是windows自带播放器识别不了pcm格式的，所以我还是喜欢用wav格式】

第一种录音方式：使用speech_recognition包进行录音，这个录音出来的效果比较好，而且代码量非常少。

import speech_recognition as sr

# Use SpeechRecognition to record 使用语音识别包录制音频
def my_record(rate=16000):
  r = sr.Recognizer()
  with sr.Microphone(sample_rate=rate) as source:
    print("please say something")
    audio = r.listen(source)

  with open("voices/myvoices.wav", "wb") as f:
    f.write(audio.get_wav_data())
  print("录音完成！")

my_record()

第二种录音方式：使用wave和pyaudio包进行录音，在python中直接使用pip install即可。

import wave
from pyaudio import PyAudio, paInt16

framerate = 16000 # 采样率
num_samples = 2000 # 采样点
channels = 1 # 声道
sampwidth = 2 # 采样宽度2bytes
FILEPATH = 'voices/myvoices.wav'

def save_wave_file(filepath, data):
  wf = wave.open(filepath, 'wb')
  wf.setnchannels(channels)
  wf.setsampwidth(sampwidth)
  wf.setframerate(framerate)
  wf.writeframes(b''.join(data))
  wf.close()

#录音
def my_record():
  pa = PyAudio()
  #打开一个新的音频stream
  stream = pa.open(format=paInt16, channels=channels,
           rate=framerate, input=True, frames_per_buffer=num_samples)
  my_buf = [] #存放录音数据

  t = time.time()
  print('正在录音...')

  while time.time() < t + 10: # 设置录音时间（秒）
  	#循环read，每次read 2000frames
    string_audio_data = stream.read(num_samples)
    my_buf.append(string_audio_data)
  print('录音结束.')
  save_wave_file(FILEPATH, my_buf)
  stream.close()

05-音频文件转文字STT

我们已经在上面获取到了音频文件，那要怎么把音频文件转化为文字呢？在这里，我们就需要调用百度的语音识别API接口，同时我们需要安装这个接口包，导入模块：pip install baidu_aip。导入我们需要的模块名，然后将音频文件发送给出去，返回文字。

# 音频文件转文字：采用百度的语音识别python-SDK
# 百度语音识别API配置参数
from aip import AipSpeech

APP_ID = 'your app_id'
API_KEY = 'your api_key'
SECRET_KEY = 'your secret_key'
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
path = 'voices/myvoices.wav'

# 将语音转文本STT
def listen():
  # 读取录音文件
  with open(path, 'rb') as fp:
    voices = fp.read()
  try:
    # 参数dev_pid：1536普通话(支持简单的英文识别)、1537普通话(纯中文识别)、1737英语、1637粤语、1837四川话、1936普通话远场
    result = client.asr(voices, 'wav', 16000, {'dev_pid': 1537, })
    # result = CLIENT.asr(get_file_content(path), 'wav', 16000, {'lan': 'zh', })
    # print(result)
    # print(result['result'][0])
    # print(result)
    result_text = result["result"][0]
    print("you said: " + result_text)
    return result_text
  except KeyError:
    print("KeyError")

06-与图灵机器人对话

上一步我们已经成功将我们的声音转化为文字了，然后我们再调用图灵机器人的API接口，做自动应答。图灵机器人对中文的识别准确率高达90%，是目前中文语境下智能度最高的机器人。有很多在Python中使用图灵机器人API的博客，但都是1.0版本，本博客介绍的是在Python中使用图灵机器人API v2.0的方法，1.0版本的调用方式已失效。

代码如下（这里需要导入requests、json模块）：

# 与机器人对话：调用的是图灵机器人
import requests
import json

# 图灵机器人的API_KEY、API_URL
turing_api_key = "your turing_api_key"
api_url = "http://openapi.tuling123.com/openapi/api/v2" # 图灵机器人api网址
headers = {'Content-Type': 'application/json;charset=UTF-8'}

# 图灵机器人回复
def Turing(text_words=""):
  req = {
    "reqType": 0,
    "perception": {
      "inputText": {
        "text": text_words
      },

      "selfInfo": {
        "location": {
          "city": "北京",
          "province": "北京",
          "street": "车公庄西大街"
        }
      }
    },
    "userInfo": {
      "apiKey": turing_api_key, # 你的图灵机器人apiKey
      "userId": "Nieson" # 用户唯一标识(随便填, 非密钥)
    }
  }

  req["perception"]["inputText"]["text"] = text_words
  response = requests.request("post", api_url, json=req, headers=headers)
  response_dict = json.loads(response.text)

  result = response_dict["results"][0]["values"]["text"]
  print("AI Robot said: " + result)
  return result

07-文字转语音

我们得到了图灵机器人的回复之后，就需要把结果转化为语音输出，从而实现语音交互。在python中我们如何将文字转为语音并输出呢？这里就需要用到另一个模块pyttsx3，它会将文字转为语音。

import pyttsx3

# 初始化语音
engine = pyttsx3.init() # 初始化语音库
# 设置语速
rate = engine.getProperty('rate')
engine.setProperty('rate', rate-50)
# 输出语音
engine.say("你好，很高兴认识你！") # 合成语音
engine.runAndWait()

使用python进行编程就是有很多好处，比如音频的输出我们就可以采用多种方式，下面提供一种更加简便的音频输出方式：

import win32com.client

speaker = win32com.client.Dispatch("SAPI.SpVoice")
speaker.Speak("我是语音助手，小灵！")

好了，至此，我们语音机器人的所有元素都已经准备妥当，接下来进行组装！

08-语音对话机器人的完整代码

经过我的努力，已经将代码优化到了100行左右哦，按照我的步骤来，你就可以快速复现构建你的语音机器人了！

# -*- coding: utf-8 -*-#
# -------------------------------
# Name:SpeechRobot
# Author:Nieson
# Date:2019/7/19 16:31
# 用python3实现自己的语音对话机器人
# -------------------------------

from aip import AipSpeech
import requests
import json
import speech_recognition as sr
import win32com.client

# 初始化语音
speaker = win32com.client.Dispatch("SAPI.SpVoice")

# 1、语音生成音频文件,录音并以当前时间戳保存到voices文件中
# Use SpeechRecognition to record 使用语音识别录制
def my_record(rate=16000):
  r = sr.Recognizer()
  with sr.Microphone(sample_rate=rate) as source:
    print("please say something")
    audio = r.listen(source)

  with open("voices/myvoices.wav", "wb") as f:
    f.write(audio.get_wav_data())

# 2、音频文件转文字：采用百度的语音识别python-SDK
# 导入我们需要的模块名，然后将音频文件发送给出去，返回文字。
# 百度语音识别API配置参数
APP_ID = 'your app_id'
API_KEY = 'your api_key'
SECRET_KEY = 'your secret_key'
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
path = 'voices/myvoices.wav'

# 将语音转文本STT
def listen():
  # 读取录音文件
  with open(path, 'rb') as fp:
    voices = fp.read()
  try:
    # 参数dev_pid：1536普通话(支持简单的英文识别)、1537普通话(纯中文识别)、1737英语、1637粤语、1837四川话、1936普通话远场
    result = client.asr(voices, 'wav', 16000, {'dev_pid': 1537, })
    # result = CLIENT.asr(get_file_content(path), 'wav', 16000, {'lan': 'zh', })
    # print(result)
    # print(result['result'][0])
    # print(result)
    result_text = result["result"][0]
    print("you said: " + result_text)
    return result_text
  except KeyError:
    print("KeyError")
    speaker.Speak("我没有听清楚，请再说一遍...")

# 3、与机器人对话：调用的是图灵机器人
# 图灵机器人的API_KEY、API_URL
turing_api_key = "your turing_api_key"
api_url = "http://openapi.tuling123.com/openapi/api/v2" # 图灵机器人api网址
headers = {'Content-Type': 'application/json;charset=UTF-8'}

# 图灵机器人回复
def Turing(text_words=""):
  req = {
    "reqType": 0,
    "perception": {
      "inputText": {
        "text": text_words
      },

      "selfInfo": {
        "location": {
          "city": "北京",
          "province": "北京",
          "street": "车公庄"
        }
      }
    },
    "userInfo": {
      "apiKey": turing_api_key, # 你的图灵机器人apiKey
      "userId": "Nieson" # 用户唯一标识(随便填, 非密钥)
    }
  }

  req["perception"]["inputText"]["text"] = text_words
  response = requests.request("post", api_url, json=req, headers=headers)
  response_dict = json.loads(response.text)

  result = response_dict["results"][0]["values"]["text"]
  print("AI Robot said: " + result)
  return result

# 语音合成，输出机器人的回答
while True:
  my_record()
  request = listen()
  response = Turing(request)
  speaker.Speak(response)

09-结束语

至此，我们就构建了一个完整的语音对话机器人，它可以在你无聊、寂寞、有压力、想开心的时候出现在你身边，哄你开心哟！这个机器人太聪明了，你可千万不要被她调戏了！

对了，你可以在图灵机器人官网里面进行人物设置，设置她的姓名、年龄和星座，我的机器人叫做小橘子，她具有十八般武艺，它能够闲聊、做数字计算、中英互译、讲故事、笑话、脑筋急转弯、歇后语、绕口令、顺口溜、玩成语接龙游戏，天气和日期查询，功能还是比较强大的！如果开通

付费版本就会拥有更多功能哦，可以训练自己的语料库，目前免费版只支持每天100次的调用，真真是不够用呀！

附带一下我和小橘子的聊天视频吧，有心的小伙伴可以做个前端页面哦！

优酷视频：https://v.youku.com/v_show/id_XNDI3OTYyMTgwNA==.html?spm=a2h3j.8428770.3416059.1

10-有问必答

博客一经发出，两天多的时间，阅读量就已经突破5000了，得到了众多博友的关注点赞和评论，说明大家对于语音对话机器人的热情和兴趣度都非常高，大家都在积极的搭建自己的语音对话机器人了！相信百度和图灵机器人最近的API调用量会蹭蹭的上涨，我在考虑要不要收点推广费了（哈哈，开个玩笑）！百度AI开放平台你注册调用他们的API后，过两天百度就会有客服给你打电话问题的体验感，大家看到一个北京号码标记为诈骗电话的那个就是了哈哈！图灵机器人公司则是通过会员收费模式来赚大家的钱，就看你能否攥紧自己的口袋了！

第10个模块有问必答是为了来解答一下大家在复现语音对话机器人过程中可能会遇到的问题，根据大家的提问，我有针对性的把一些常见问题在此给各位进行一下解答，也非常欢迎博友们之间积极回复，毕竟博主的精力也是有限的，还要投入到无限的AI能力研究中去(可能也是因为懒吧)。刚好，十个模块凑齐了十全十美，处女座看起来也舒心一些！闲话少叙，进入正题：

（1）问：我直接执行你全部代码的时候为什么跑不通呢？

答：首先强调一点，各位在复现代码的时候，一定要把百度和图灵机器人的相关api_id, api_key等替换成自己的！另外图灵机器人记得要身份验证，通过后才能调用图灵机器人！

（2）问：我在运行之后输出please say something，然后我说了话，之后隔一段时间才输出KeyError，AI Robot said: 请求次数超限制！这是什么原因？

答：因为在05-音频文件转文字STT中，为了避免有时候录音文件出现问题，特别是在不带耳机直接对着笔记本说话时，如果周围环境嘈杂，会导致录音质量不佳，或者是长时间不说话，这些情况就会报Key Error的问题；另外最重要的一个，那就是图灵机器人如果你注册后未进行身份认证，或者身份认证未通过，那么你能调用API的次数为0次，也就是说图灵机器人不会给你回复，就会出现“请求次数超限制”。通过认证后，目前能够每天调用100次，也就是聊天100次也会出现“请求次数超限制”了。

（3）问：Mac电脑上没有win32com怎么办啊？

答：如果win32com不行，那你就用可以尝试安装一下pyttsx3包，用前文中提到的第一种语音输出方式。我为了代码整洁，所以没有把第一种方式写到完整代码中(其实也写了，写博客的时候删了而已，别问我为啥，为了整洁好看，lol！)。

（4）问：为什么我的with open那里说文件找不到？

答：那是因为我所有的录音文件（如myvoices.wav）都在voices目录下，所以要记得创建一下自己的文件夹目录voices。

（5）问：不会python，有没有Java版本？

答：大家看完python版本，可以尝试用Java来复现一下，毕竟你都会Java了，百度API也支持Java调用哦，看官网哈！

（6）问：安装包出现问题，主要是from aip import AipSpeech、import speech_recognition as sr中的aip、speech_recognition包为啥安装不成功？

答：这两个包比较特殊，在import的时候是aip和speech_recognition，但在install安装的时候分别是baidu-aip和SpeechRecognition，这样就能安装成功啦！

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

python 调用钉钉机器人的方法

以text格式的消息为例:(只需修改content后的内容) Import json Import requests url='https://oapi.dingtalk.com/robot/send?access_token=xxxxxxxxxxxxxx' HEADERS={"Content-Type":"application/json;charset=utf-8"} String_textMsg={"msgtype":"text&
使用Python的Tornado框架实现一个简单的WebQQ机器人

我打算将WebQQ单独出来运行, 一开始直接拷贝了pyxmpp2的mainloop, 但是跑起来问题多多, 所以我又研究了利用Tornado进行网络编程(这里), 所以我放弃了Pyxmpp2的mainloop,使用Tornado进行重写首先放出项目代码引子 WebQQ协议是一套基于HTTP的QQ协议, 而用Python的urllib2库进行请求太慢, 因为HTTP本身就使用socket请求, 所以改用多路复用I/O模型, 而Tornado简单高效, 看过代码后可以轻松上手.平台兼容性很好,
基于Python如何使用AIML搭建聊天机器人

借助 Python 的 AIML 包,我们很容易实现人工智能聊天机器人.AIML,全名为Artificial Intelligence Markup Language(人工智能标记语言),是一种创建自然语言软件代理的XML语言,是由Richard Wallace和世界各地的自由软件社区在1995年至2002年发明的. AIML 是什么? AIML由Richard Wallace发明.他设计了一个名为 A.L.I.C.E. (Artificial Linguistics Internet Comp
快速实现基于Python的微信聊天机器人示例代码

最近听说一个很好玩的图灵机器人api,正好可以用它做一个微信聊天机器人,下面是实现 # test.py import requests import itchat #这是一个用于微信回复的库 KEY = '8edce3ce905a4c1dbb965e6b35c3834d' #这个key可以直接拿来用 # 向api发送请求 def get_response(msg): apiUrl = 'http://www.tuling123.com/openapi/api' data = { 'key' :
python调用API实现智能回复机器人

本文实例为大家分享了python调用API实现机器人的具体代码,供大家参考,具体内容如下注意事项: 下面代码中的APIKEY需要替换需要有自己的公众号平台,并且自己成为管理员, http://www.tuling123.com 这个网址上要有账号并且创建机器人,在帮助中心里可以获取APIkey,然后填入下方的代码中. #图灵机器人 def talks_robot(info = '你叫什么名字'): api_url = 'http://www.tuling123.com/openapi/api
python使用itchat库实现微信机器人(好友聊天、群聊天)

itchat是一个开源的微信个人号接口,可以使用该库进行微信网页版中的所有操作,比如:所有好友.添加好友.拉好友群聊.微信机器人等等.详细用户请看文档介绍,在这里. 本文主要使用该库完成一个能够处理微信消息的的图灵机器人,包括好友聊天.群聊天. 1.itchat库的安装 pip install itchat 安装完成后运行以下代码,会出现出现一张二维码,扫码登陆之后将会登陆微信网页. 2.登陆 import itchat # 登陆 itchat.auto_login() # 可设置hotRelo
Python实现聊天机器人的示例代码

一.AIML是什么 AIML全名为Artificial Intelligence Markup Language(人工智能标记语言),是一种创建自然语言软件代理的XML语言,是由RichardS. Wallace 博士和Alicebot开源软件组织于1995-2000年间发明创造的.AIML是一种为了匹配模式和确定响应而进行规则定义的 XML 格式. 二.实现第一个聊天机器人 (一)安装Python aiml库 pip install aiml (二)获取alice资源 Python aiml安
python实现机器人行走效果

本文实例为大家分享了python实现机器人行走效果的具体代码,供大家参考,具体内容如下 #! /usr/bin/env python3 # -*- coding: utf-8 -*- # fileName : robot_path.py # author : zoujiameng@aliyun.com.cn # 地上有一个m行和n列的方格.一个机器人从坐标0,0的格子开始移动,每一次只能向左,右,上,下四个方向移动一格,但是不能进入行坐标和列坐标的数位之和大于k的格子. # 例如,当k为18时,
python 实现语音聊天机器人的示例代码

前言在不远的将来,实现一定程度上的语音支持将成为日常科技的基本要求,整合了语音识别的python程序提供了其他技术无法比拟的交互性和可访问性.最重要的是,在python程序中实现语音识别非常简单.整个代码实现下来还不到150行. 原理简介许多现代语音识别系统会在HMM识别之前使用神经网络,通过特征变换和降维技术来简化语音信号,也可以使用语音活动检测器将音频信号减少到可能包含语音的部分. 幸运的是,对于python来讲,一些语音识别的服务可通过API在线使用,且其中大部分也提供了Python
教你用Python创建微信聊天机器人

最近研究微信API,发现个非常好用的python库:wxpy.wxpy基于itchat,使用了 Web 微信的通讯协议,实现了微信登录.收发消息.搜索好友.数据统计等功能. 这里我们就来介绍一下这个库,并在最后实现一个聊天机器人. 有没有很兴奋?有没有很期待? 好了,接下来,开始我们的正题. 准备工作安装非常简单,从官方源下载安装 pip install -U wxpy 或者从豆瓣源安装 pip install -U wxpy -i "https://pypi.doubanio.com/sim

Python3从零开始搭建一个语音对话机器人的实现

相关推荐

随机推荐