基于Python创建语音识别控制系统

2025-04-01 01:41:28

下面附上参考文章，这篇文章是通过识别出来的文字来打开浏览器中的默认网站。python通过调用百度api实现语音识别

题目很简单，利用语音识别识别说出来的文字，根据文字的内容来控制图形移动，例如说向上，识别出文字后，画布上的图形就会向上移动。本文使用的是百度识别API（因为免费），自己做的流程图：

不多说，直接开始程序设计，首先登录百度云，创建应用

注意这里的API Key和Secret Key，要用自己的才能生效

百度语音识别有对应的文档，具体调用方法说的很清晰，如果想学习一下可以查看REST API文档

文档写的很详细，本文只说明用到的方法，语音识别使用方法为组装URL获取token，然后处理本地音频以JSON格式发送到百度语音识别服务器，获得返回结果。

百度语音识别支持pcm、wav等多种格式，百度服务端会将非pcm格式转成pcm格式，因此使用wav、amr格式会有额外的转换耗时。保存为pcm格式可以识别，只是windows自带播放器识别不了pcm格式的，所以改用wav格式，同时要引用wave库，功能为可读、写wav类型的音频文件。采样率使用了pcm采样率16000固定值，编码为16bit位深的单声道。

录音函数中使用了PyAudio库，是Python下的一个音频处理模块，用于将音频流输送到计算机声卡上。在当前文件夹打开一个新的音频进行录音并存放录音数据。本地录音：

def save_wave_file(filepath, data):
    wf = wave.open(filepath, 'wb')
    wf.setnchannels(channels)
    wf.setsampwidth(sampwidth)
    wf.setframerate(framerate)
    wf.writeframes(b''.join(data))
    wf.close()

# 录音
def my_record():
    pa = PyAudio()
    # 打开一个新的音频stream
    stream = pa.open(format=paInt16, channels=channels,
                     rate=framerate, input=True, frames_per_buffer=num_samples)
    my_buf = []  # 存放录音数据
    t = time.time()
    print('正在录音...')
    while time.time() < t + 5:  # 设置录音时间（秒）
        # 循环read，每次read 2000frames
        string_audio_data = stream.read(num_samples)
        my_buf.append(string_audio_data)
    print('录音结束.')
    save_wave_file(FILEPATH, my_buf)
    stream.close()

然后是获取token，根据创建应用得到的APIKey和SecreKey（这里要使用自己的）来组装URL获取token。在语音识别函数中调用获取的token和已经录制好的音频数据，按照要求的格式来写进JSON参数进行上传音频。

百度语音要求对本地语音二进制数据进行base64编码，使用base64库来进行编码。创建识别请求使用的是POST方式来进行提交，在识别函数中写入百度语音提供的短语音识别请求地址。识别结果会立刻返回，采用JSON格式进行封装，识别结果放在 JSON 的 “result” 字段中，统一采用 utf-8 方式编码。

# 组装url获取token
base_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=%s&client_secret=%s"
APIKey = "*****************"
SecretKey = "********************"
HOST = base_url % (APIKey, SecretKey)

def getToken(host):
    res = requests.post(host)
    r = res.json()['access_token']
    return r

# 传入语音二进制数据，token
# dev_pid为百度语音识别提供的几种语言选择，默认1537为有标点普通话
def speech2text(speech_data, token, dev_pid=1537):
    FORMAT = 'wav'
    RATE = '16000'
    CHANNEL = 1
    CUID = '*******'
    SPEECH = base64.b64encode(speech_data).decode('utf-8')
    data = {
        'format': FORMAT,
        'rate': RATE,
        'channel': CHANNEL,
        'cuid': CUID,
        'len': len(speech_data),
        'speech': SPEECH,
        'token': token,
        'dev_pid': dev_pid
    }
    url = 'https://vop.baidu.com/server_api'  # 短语音识别请求地址
    headers = {'Content-Type': 'application/json'}
    print('正在识别...')
    r = requests.post(url, json=data, headers=headers)
    Result = r.json()
    if 'result' in Result:
        return Result['result'][0]
    else:
        return Result

最后我们编写控制移动函数，首先我们要知道如何来把控制图形移动来呈现出来。本项目中我们使用的是tkinter模块，Tkinter是一个python模块，是一个调用Tcl/Tk的接口，它是一个跨平台的脚本图形界面接口。是一个比较流行的python图形编程接口。最大的特点是跨平台，缺点是性能不太好，执行速度慢。

我们利用tkinter中的canvas来设置一个画布，并创建一个事件ID为1的矩形，把矩形放在画布中显示。在画布中添加Button按钮，回调中写入对应的函数，点击触发录制音频和语音识别。为了使代码更加简洁，我们把移动函数放在语音识别函数中调用，返回识别结果后对结果做出判断，最后使图形进行移动。

def move(result):
    print(result)
    if "向上" in result:
        canvas.move(1, 0, -30)  # 移动的是 ID为1的事物【move（2,0,-5）则移动ID为2的事物】，使得横坐标加0，纵坐标减30
    elif "向下" in result:
        canvas.move(1, 0, 30)
    elif "向左" in result:
        canvas.move(1, -30, 0)
    elif "向右" in result:
        canvas.move(1, 30, 0)

tk = Tk()
tk.title("语音识别控制图形移动")
Button(tk, text="开始录音", command=AI.my_record).pack()
Button(tk, text="开始识别", command=speech2text).pack()
canvas = Canvas(tk, width=500, height=500)  # 设置画布
canvas.pack()  # 显示画布
r = canvas.create_rectangle(180, 180, 220, 220, fill="red")  # 事件ID为1
mainloop()

个人习惯，我把语音识别和图形控制写在了两个文件里，这就导致main.py文件中没有办法使用AI.py文件函数中的返回值，因为我们使用的tkinter模块是不断循坏的，通过mainloop（）才能结束循环，这样不断循坏就调用不了返回值，使用的方法是在main.py中重新构建一样函数来调用AI.py文件中的函数，并声明全局变量，把AI.py文件中的返回值放在main.py文件的全局变量中，这样就得到了返回值，再将函数写到Button回调中就实现了对应的功能。

其实代码写的十分麻烦，写在一个文件里会简单些，我画了两个文件的调用关系：

完整demo如下

AI.py

import wave  # 可读、写wav类型的音频文件。
import requests  # 基于urllib，采⽤Apache2 Licensed开源协议的 HTTP 库。在本项目中用于传递headers和POST请求
import time
import base64  # 百度语音要求对本地语音二进制数据进行base64编码
from pyaudio import PyAudio, paInt16  # 音频处理模块，用于将音频流输送到计算机声卡上

framerate = 16000  # 采样率
num_samples = 2000  # 采样点
channels = 1  # 声道
sampwidth = 2  # 采样宽度2bytes
FILEPATH = 'speech.wav'

# 组装url获取token
base_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=%s&client_secret=%s"
APIKey = "8bv3inF5roWBtEXYpZViCs39"
SecretKey = "HLXYiLGCpeOD6ddF1m6BvwcDZVOYtwwD"
HOST = base_url % (APIKey, SecretKey)

def getToken(host):
    res = requests.post(host)
    r = res.json()['access_token']
    return r

def save_wave_file(filepath, data):
    wf = wave.open(filepath, 'wb')
    wf.setnchannels(channels)
    wf.setsampwidth(sampwidth)
    wf.setframerate(framerate)
    wf.writeframes(b''.join(data))
    wf.close()

# 录音
def my_record():
    pa = PyAudio()
    # 打开一个新的音频stream
    stream = pa.open(format=paInt16, channels=channels,
                     rate=framerate, input=True, frames_per_buffer=num_samples)
    my_buf = []  # 存放录音数据
    t = time.time()
    print('正在录音...')
    while time.time() < t + 5:  # 设置录音时间（秒）
        # 循环read，每次read 2000frames
        string_audio_data = stream.read(num_samples)
        my_buf.append(string_audio_data)
    print('录音结束.')
    save_wave_file(FILEPATH, my_buf)
    stream.close()

def get_audio(file):
    with open(file, 'rb') as f:
        data = f.read()
    return data

# 传入语音二进制数据，token
# dev_pid为百度语音识别提供的几种语言选择，默认1537为有标点普通话
def speech2text(speech_data, token, dev_pid=1537):
    FORMAT = 'wav'
    RATE = '16000'
    CHANNEL = 1
    CUID = '*******'
    SPEECH = base64.b64encode(speech_data).decode('utf-8')
    data = {
        'format': FORMAT,
        'rate': RATE,
        'channel': CHANNEL,
        'cuid': CUID,
        'len': len(speech_data),
        'speech': SPEECH,
        'token': token,
        'dev_pid': dev_pid
    }
    url = 'https://vop.baidu.com/server_api'  # 短语音识别请求地址
    headers = {'Content-Type': 'application/json'}
    print('正在识别...')
    r = requests.post(url, json=data, headers=headers)
    Result = r.json()
    if 'result' in Result:
        return Result['result'][0]
    else:
        return Result

main.py

import AI
from tkinter import *  # 导入tkinter模块的所有内容

token = None
speech = None
result = None

def getToken():
    temptoken = AI.getToken(AI.HOST)
    return temptoken

def speech2text():
    global token
    if token is None:
        token = getToken()
    speech = AI.get_audio(AI.FILEPATH)
    result = AI.speech2text(speech, token, dev_pid=1537)
    print(result)
    move(result)

def move(result):
    print(result)
    if "向上" in result:
        canvas.move(1, 0, -30)  # 移动的是 ID为1的事物【move（2,0,-5）则移动ID为2的事物】，使得横坐标加0，纵坐标减30
    elif "向下" in result:
        canvas.move(1, 0, 30)
    elif "向左" in result:
        canvas.move(1, -30, 0)
    elif "向右" in result:
        canvas.move(1, 30, 0)

tk = Tk()
tk.title("语音识别控制图形移动")
Button(tk, text="开始录音", command=AI.my_record).pack()
Button(tk, text="开始识别", command=speech2text).pack()
canvas = Canvas(tk, width=500, height=500)  # 设置画布
canvas.pack()  # 显示画布
r = canvas.create_rectangle(180, 180, 220, 220, fill="red")  # 事件ID为1
mainloop()

文件关系

录制的音频会自动保存在当前文件夹下，就是speech文件

测试结果，运行

点击开始录音

点击开始识别

然后可以看到图形往右移动

经测试，大吼效果更佳

到此这篇关于基于Python创建语音识别控制系统的文章就介绍到这了,更多相关Python 语音识别控制系统内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python迅速掌握语音识别之知识储备篇

目录概述 RNN 计算 RNN 存在的问题 LSTM GRU Seq2seq Attention 模型 Teacher Forcing 机制概述从今天开始我们将开启一个新的深度学习章节, 为大家来讲述一下深度学习在语音识别 (Speech Recognition) 的应用. 语音识别技术可以将语音转换为计算机可读的输入, 让计算机明白我们要表达什么, 实现真正的人机交互. 希望通过本专栏的学习, 大家能够对语音识别这一领域有一个基本的了解. RNN RNN (Recurrent Neura
Python调用百度api实现语音识别详解

最近在学习python,做一些python练习题 github上几年前的练习题有一题是这样的: 使用 Python 实现:对着电脑吼一声,自动打开浏览器中的默认网站. 例如,对着笔记本电脑吼一声"百度",浏览器自动打开百度首页. 然后开始search相应的功能需要的模块(windows10),理一下思路: 本地录音上传录音,获得返回结果组一个map,根据结果打开相应的网页所需模块: PyAudio:录音接口 wave:打开录音文件并设置音频参数 requests:GET/POS
Python结合百度语音识别实现实时翻译软件的实现

一.所需库安装 pip install PyAudio pip install SpeechRecognition pip install baidu-aip pip install Wave pip install Wheel pip install Pyinstaller 二.百度官网申请服务三.源代码分享 import pyaudio import wave from aip import AipSpeech import time # 用Pyaudio库录制音频 # out_file:
python录音并调用百度语音识别接口的示例

#!/usr/bin/env python import requests import json import base64 import pyaudio import wave import os import psutil #首先配置必要的信息 def bat(voice_path): baidu_server = 'https://aip.baidubce.com/oauth/2.0/token?' grant_type = 'client_credentials' client_id
python语音识别的转换方法

使用pyttsx的python包,你可以将文本转换为语音. 安装命令 pip install pyttsx3 -i https://pypi.tuna.tsinghua.edu.cn/simple 运行一个简单的语音 '大家好'. import pyttsx3 as pyttsx engine = pyttsx.init() #初始化 engine.say('大家好') engine.runAndWait() 另一种文本转语音方法. from win32com.client import Dis
Python实现语音识别和语音合成功能

声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移. 通过傅里叶变换,可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础. 案例:画出语音信号的波形和频率分布,(freq.wav数据地址) # -*- encoding:utf-8 -*- import numpy as np import numpy.fft as nf import scipy.io.wavfil
基于Python创建语音识别控制系统

下面附上参考文章,这篇文章是通过识别出来的文字来打开浏览器中的默认网站.python通过调用百度api实现语音识别题目很简单,利用语音识别识别说出来的文字,根据文字的内容来控制图形移动,例如说向上,识别出文字后,画布上的图形就会向上移动.本文使用的是百度识别API(因为免费),自己做的流程图: 不多说,直接开始程序设计,首先登录百度云,创建应用注意这里的API Key和Secret Key,要用自己的才能生效百度语音识别有对应的文档,具体调用方法说的很清晰,如果想学习一下可以查看REST
基于Python实现语音识别和语音转文字

目录前言直接使用获取权限 1.环境准备 2.获取权限代码实现 1.获取access_token 2.获取转换后音频 3.配置接口参数 4.完整demo 5.执行前言嗨嗨,大家好呀 ~ 今天给你们分享一个有趣的东西 ~ 是一个语音识别跟语音转文字的小工具感兴趣的朋友可以继续往下滑咯直接使用在1.2官网注册后拿到APISecret和APIKey, 直接复制文章2.4demo代码, 保存为online_tts.py, 在命令行执行 python online_tts.py -clie
Python基于ThreadingTCPServer创建多线程代理的方法示例

本文实例讲述了Python基于ThreadingTCPServer创建多线程代理的方法.分享给大家供大家参考,具体如下: #coding=utf8 from BaseHTTPServer import BaseHTTPRequestHandler from SocketServer import ThreadingTCPServer import gzip from StringIO import StringIO import logging logging.basicConfig(level
Python创建普通菜单示例【基于win32ui模块】

本文实例讲述了Python创建普通菜单的方法.分享给大家供大家参考,具体如下: 一.代码 # -*- coding:utf-8 -*- #! python3 import win32ui import win32api from win32con import * from pywin.mfc import window class MyWnd(window.Wnd): def __init__ (self): window.Wnd.__init__(self,win32ui.CreateWnd
Python创建对称矩阵的方法示例【基于numpy模块】

本文实例讲述了Python创建对称矩阵的方法.分享给大家供大家参考,具体如下: 对称(实对称)矩阵也即: step 1:创建一个方阵 >>> import numpy as np >>> X = np.random.rand(5**2).reshape(5, 5) >>> X array([[ 0.26984148, 0.25408384, 0.12428487, 0.0194565 , 0.91287708], [ 0.31837673, 0.354
基于Python os模块常用命令介绍

1.os.name---判断现在正在实用的平台,Windows返回'nt':linux返回'posix' 2.os.getcwd()---得到当前工作的目录. 3.os.listdir()--- 4.os.remove---删除指定文件 5.os.rmdir()---删除指定目录 6.os.mkdir()---创建目录(只能创建一层) 7.os.path.isfile()---判断指定对象是否为文件.是则返回True. 8.os.path.isdir()---判断指定对象是否为目录 9.os.p
基于python中的TCP及UDP(详解)

python中是通过套接字即socket来实现UDP及TCP通信的.有两种套接字面向连接的及无连接的,也就是TCP套接字及UDP套接字. TCP通信模型创建TCP服务器伪代码: ss = socket() # 创建服务器套接字 ss.bind() # 套接字与地址绑定 ss.listen() # 监听连接 inf_loop: # 服务器无限循环 cs = ss.accept() # 接受客户端连接 comm_loop: # 通信循环 cs.recv()/cs.send() # 对话(接收/发
基于Python 的进程管理工具supervisor使用指南

Supervisor 是基于 Python 的进程管理工具,只能运行在 Unix-Like 的系统上,也就是无法运行在 Windows 上.Supervisor 官方版目前只能运行在 Python 2.4 以上版本,但是还无法运行在 Python 3 上,不过已经有一个 Python 3 的移植版 supervisor-py3k. 什么情况下我们需要进程管理呢?就是执行一些需要以守护进程方式执行的程序,比如一个后台任务,我最常用的是用来启动和管理基于 Tornado 写的 Web 程序. 除此之
基于python select.select模块通信的实例讲解

要理解select.select模块其实主要就是要理解它的参数, 以及其三个返回值. select()方法接收并监控3个通信列表, 第一个是所有的输入的data,就是指外部发过来的数据,第2个是监控和接收所有要发出去的data(outgoing data),第3个监控错误信息在网上一直在找这个select.select的参数解释, 但实在是没有, 哎...自己硬着头皮分析了一下. readable, writable, exceptional = select.select(inputs, ou
基于Python数据可视化利器Matplotlib,绘图入门篇,Pyplot详解

Pyplot matplotlib.pyplot是一个命令型函数集合,它可以让我们像使用MATLAB一样使用matplotlib.pyplot中的每一个函数都会对画布图像作出相应的改变,如创建画布.在画布中创建一个绘图区.在绘图区上画几条线.给图像添加文字说明等.下面我们就通过实例代码来领略一下他的魅力. import matplotlib.pyplot as plt plt.plot([1,2,3,4]) plt.ylabel('some numbers') plt.show() 上图是我们通

基于Python创建语音识别控制系统

相关推荐

随机推荐