Linux下利用python实现语音识别详细教程

2026-02-24 23:08:11

语音识别工作原理简介

语音识别源于 20 世纪 50 年代早期在贝尔实验室所做的研究。早期语音识别系统仅能识别单个讲话者以及只有约十几个单词的词汇量。现代语音识别系统已经取得了很大进步，可以识别多个讲话者，并且拥有识别多种语言的庞大词汇表。
语音识别的首要部分当然是语音。通过麦克风，语音便从物理声音被转换为电信号，然后通过模数转换器转换为数据。一旦被数字化，就可适用若干种模型，将音频转录为文本。
大多数现代语音识别系统都依赖于隐马尔可夫模型（HMM）。其工作原理为：语音信号在非常短的时间尺度上（比如 10 毫秒）可被近似为静止过程，即一个其统计特性不随时间变化的过程。
许多现代语音识别系统会在 HMM 识别之前使用神经网络，通过特征变换和降维的技术来简化语音信号。也可以使用语音活动检测器（VAD）将音频信号减少到可能仅包含语音的部分。
幸运的是，对于 Python 使用者而言，一些语音识别服务可通过 API 在线使用，且其中大部分也提供了 Python SDK。

选择合适的python语音识别包

PyPI中有一些现成的语音识别软件包。其中包括：
•apiai
•google-cloud-speech
•pocketsphinx
•SpeechRcognition
•watson-developer-cloud
•wit
一些软件包（如 wit 和 apiai ）提供了一些超出基本语音识别的内置功能，如识别讲话者意图的自然语言处理功能。其他软件包，如谷歌云语音，则专注于语音向文本的转换。
其中，SpeechRecognition 就因便于使用脱颖而出。
识别语音需要输入音频，而在 SpeechRecognition 中检索音频输入是非常简单的，它无需构建访问麦克风和从头开始处理音频文件的脚本，只需几分钟即可自动完成检索并运行。

安装SpeechRecognition

SpeechRecognition 兼容 Python2.6 , 2.7 和 3.3+，但若在 Python 2 中使用还需要一些额外的安装步骤。大家可使用 pip 命令从终端安装 SpeechRecognition：pip3 install SpeechRecognition
安装过程中可能会出现一大片红色字体提示安装错误！我在另一篇博客中有解决方法（https://www.jb51.net/article/279677.htm）

安装完成后可以打开解释器窗口进行验证安装：

注：不要关闭此会话，在后几个步骤中你将要使用它。
若处理现有的音频文件，只需直接调用 SpeechRecognition ，注意具体的用例的一些依赖关系。同时注意，安装 PyAudio 包来获取麦克风输入

识别器类

SpeechRecognition 的核心就是识别器类。
Recognizer API 主要目是识别语音，每个 API 都有多种设置和功能来识别音频源的语音，这里我选择的是recognize_sphinx(): CMU Sphinx - requires installing PocketSphinx（支持离线的语音识别）
那么我们就需要通过pip命令来安装PocketSphinx，在安装过程中也容易出现一大串红色字体的错误。因为博主英语不太好，具体啥错误不知道。直接上解决方法吧！在我的另一篇文章有介绍：
（https://www.jb51.net/article/279684.htm）

音频文件的使用

下载相关的音频文件保存到特定的目录（博主直接保存到ubuntu桌面）：
链接：https://pan.baidu.com/s/1oWG1A6JnjpeT_8DhEpoZzw
提取码：sf73
注意：
AudioFile 类可以通过音频文件的路径进行初始化，并提供用于读取和处理文件内容的上下文管理器界面。
SpeechRecognition 目前支持的文件类型有：

WAV: 必须是 PCM/LPCM 格式
AIFF
AIFF-CFLAC: 必须是初始 FLAC 格式；OGG-FLAC 格式不可用

英文的语音识别

在完成以上基础工作以后，就可以进行英文的语音识别了。
（1）打开终端
（2）进入语音测试文件所在目录（博主的是桌面）
（3）打开python解释器
（4）按照下图输入相关命令

最后就可以看到语音转文字的内容（this they’ll smell …),其实效果还是很不错的！因为是英文，并且没有噪音。

噪音对语音识别的影响

噪声在现实世界中确实存在，所有录音都有一定程度的噪声，而未经处理的噪音可能会破坏语音识别应用程序的准确性。
要了解噪声如何影响语音识别，请下载 “jackhammer.wav”（链接：https://pan.baidu.com/s/1AvGacwXeiSfMwFUTKer3iA
提取码：3pj7）
通过尝试转录效果并不好，我们可以通过尝试调用 Recognizer 类的adjust_for_ambient_noise（）命令。

麦克风的使用

若要使用 SpeechRecognizer 访问麦克风则必须安装 PyAudio 软件包。
如果使用的是基于 Debian的Linux（如 Ubuntu ），则可使用 apt 安装 PyAudio：sudo apt-get install python-pyaudio python3-pyaudio安装完成后可能仍需要启用 pip3 install pyaudio ，尤其是在虚拟情况下运行。
在安装完pyaudio的情况下可以通过python实现语音录入生成相关文件。
pocketsphinx的使用注意：
支持文件格式：wav
音频文件的解码要求：16KHZ,单声道
利用python实现录音并生成相关文件程序代码如下：

from pyaudio import PyAudio, paInt16
import numpy as np
import wave
class recoder:
     NUM_SAMPLES = 2000
     SAMPLING_RATE = 16000
     LEVEL = 500
     COUNT_NUM = 20
     SAVE_LENGTH = 8
     Voice_String = []
     def savewav(self,filename):
         wf = wave.open(filename, 'wb')
         wf.setnchannels(1)
         wf.setsampwidth(2)
         wf.setframerate(self.SAMPLING_RATE)
         wf.writeframes(np.array(self.Voice_String).tostring())
         wf.close()
     def recoder(self):
         pa = PyAudio()
         stream = pa.open(format=paInt16, channels=1, rate=self.SAMPLING_RATE, input=True,frames_per_buffer=self.NUM_SAMPLES)
         save_count = 0
         save_buffer = []
         while True:
            string_audio_data = stream.read(self.NUM_SAMPLES)
            audio_data = np.fromstring(string_audio_data, dtype=np.short)
            large_sample_count = np.sum(audio_data > self.LEVEL)
            print(np.max(audio_data))
            if large_sample_count > self.COUNT_NUM:
                save_count = self.SAVE_LENGTH
            else:
                save_count -= 1
            if save_count < 0:
                save_count = 0
            if save_count > 0:
                save_buffer.append(string_audio_data )
            else:
                if len(save_buffer) > 0:
                    self.Voice_String = save_buffer
                    save_buffer = []
                    print("Recode a piece of voice successfully!")
                    return True
		 else:
                    return False
if __name__ == "__main__":
    r = recoder()
    r.recoder()
    r.savewav("test.wav")

注意：在利用python解释器实现时一定要注意空格！！！
最后生成的文件就在Python解释器回话所在目录下，可以通过play来播放测试一下，如果没有安装play可以通过apt命令来安装。

中文的语音识别

在进行完以前的工作以后，我们对语音识别的流程大概有了一定的了解，但是作为一个中国人总得做一个中文的语音识别吧！

我们要在CMU Sphinx语音识别工具包里面下载对应的普通话升学和语言模型。

图片中标记的就是普通话！下载相关的语音识别工具包。

但是我们要把zh_broadcastnews_64000_utf8.DMP转化成language-model.lm.bin，再解压zh_broadcastnews_16k_ptm256_8000.tar.bz2得到zh_broadcastnews_ptm256_8000文件夹。
借鉴刚才那位博主的方法，在Ubuntu下找到speech_recognition文件夹。可能会有很多小伙伴找不到相关的文件夹，其实是在隐藏文件下。大家可以点击文件夹右上角的三条杠。如下图所示：

然后给显示隐藏文件打个勾，如下图所示：

然后依次按照以下目录就可以找到啦：

然后把原来的en-US改名成en-US-bak,新建一个文件夹en-US，把解压出来的zh_broadcastnews_ptm256_8000改成acoustic-model,把chinese.lm.bin改成language-model.lm.bin,把pronounciation-dictionary.dic改后缀成dict,复制这三个文件到en-US里。同时把原来en-US文件目录下的LICENSE.txt复制到现在的文件夹下。
最终该文件夹下有以下文件：

然后我们就可以通过麦克风录入一个语音文件文件（“test.wav”）
在该文件目录下打开python解释器输入以下内容：

就看到了输出内容，但是我说的是两个中国，也测试了一下其他的发现识别效果很不好！！！
当然有好多同学可能想要语音包，我就分享给大家啦！（链接：https://pan.baidu.com/s/13DTDnv_4NYbKXpkXAXODpw
提取码：zh39）

小范围中文识别

用官方提供的效果太差，几乎不能用！那么我看了很多文章以后就想到了一种优化方法，但是只适合小范围的识别！一些命令啥的应该没有问题，但是聊天什么的可能就效果不太好。
找到刚才复制的4个文件夹，有一个pronounciation-dictionary.dict的文件夹，打开以后是以下内容：

感觉这内容就是类似于一个字典，很多用词和平时交流的用词差距比较大。那么我们改成我们习惯的用词就可以啦！抱着试一试的想法，结果还真的可以。识别效果真的不错！
我的做法是：
（1）把图片中红色标记以上的内容继续保留，红色以下的内容删除掉。当然处于保险考虑建议大家给该文件备份一下！
（2）给红色线以下输入自己想识别的内容！（按照规则输入，不同于拼音！！！）最近新型肺炎的情况不断的变好，听到最多的一句话就是“中国加油”那么今天的内容就是将“中国加油”实现语音转文字！希望能早日开学，哈哈哈哈。

3）输入以下内容：

语音合成

语音合成个人的理解就是文字转语音。不过这句话中可以设置client = AipSpeech(APP_ID, API_KEY, SECRET_KEY) result = client.synthesis('你好百度', 'zh', 1, { 'vol': 5,'spd': 3,'pit':9,'per': 3})音量、声调、速度、男/女/萝莉/逍遥。大家快去尝试合成一下吧！最后来欣赏一下语音合成后4种不同风格的语音，你更喜欢那一款呢？

以上就是Linux下利用python实现语音识别详细教程的详细内容，更多关于Linux利用python实现语音识别的资料请关注我们其它相关文章！

基于Python实现语音识别和语音转文字

目录前言直接使用获取权限 1.环境准备 2.获取权限代码实现 1.获取access_token 2.获取转换后音频 3.配置接口参数 4.完整demo 5.执行前言嗨嗨,大家好呀 ~ 今天给你们分享一个有趣的东西 ~ 是一个语音识别跟语音转文字的小工具感兴趣的朋友可以继续往下滑咯直接使用在1.2官网注册后拿到APISecret和APIKey, 直接复制文章2.4demo代码, 保存为online_tts.py, 在命令行执行 python online_tts.py -clie
使用Python和百度语音识别生成视频字幕的实现

从视频中提取音频安装 moviepy pip install moviepy 相关代码: audio_file = work_path + '\\out.wav' video = VideoFileClip(video_file) video.audio.write_audiofile(audio_file,ffmpeg_params=['-ar','16000','-ac','1']) 根据静音对音频分段使用音频库 pydub,安装: pip install pydub 第一种方法: #
python语音识别指南终极版(有这一篇足矣)

[导读]亚马逊的 Alexa 的巨大成功已经证明:在不远的将来,实现一定程度上的语音支持将成为日常科技的基本要求.整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性.最重要的是,在 Python 程序中实现语音识别非常简单.阅读本指南,你就将会了解.你将学到: •语音识别的工作原理: •PyPI 支持哪些软件包; •如何安装和使用 SpeechRecognition 软件包--一个功能全面且易于使用的 Python 语音识别库. 语言识别工作原理概述语音识别源于 20
Python实现语音识别和语音合成功能

声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移. 通过傅里叶变换,可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础. 案例:画出语音信号的波形和频率分布,(freq.wav数据地址) # -*- encoding:utf-8 -*- import numpy as np import numpy.fft as nf import scipy.io.wavfil
python3实现语音转文字(语音识别)和文字转语音(语音合成)

话不多说,直接上代码运行截图 1.语音合成 -------> 执行: 结果: 输入要转换的内容,程序直接帮你把转换好的mp3文件输出(因为下一步–语音识别–需要.pcm格式的文件,程序自动执行格式转换,同时生成17k.pcm文件,暂时不用管,(你也可以通过修改默认参数改变文件输出的位置,名称及是否进行pcm转换 <------- 2.语音处理 ----> 方便起见, 我们直接运行语音处理程序,识别我们上一步的17k.pcm文件: What?识别居然出现了点错误,不过不用担心,博主已经调
Linux下利用python实现语音识别详细教程

目录语音识别工作原理简介选择合适的python语音识别包安装SpeechRecognition 识别器类音频文件的使用英文的语音识别噪音对语音识别的影响麦克风的使用中文的语音识别小范围中文识别语音合成语音识别工作原理简介语音识别源于 20 世纪 50 年代早期在贝尔实验室所做的研究.早期语音识别系统仅能识别单个讲话者以及只有约十几个单词的词汇量.现代语音识别系统已经取得了很大进步,可以识别多个讲话者,并且拥有识别多种语言的庞大词汇表.语音识别的首要部分当然是语音.通过麦克
superset在linux和windows下的安装和部署详细教程

前言 Superset 是 Airbnb开源的数据探查与可视化平台,是个轻量级的BI工具,开发者可以在其开源代码上根据需要进行二次开发.最近在探索数据分析平台的应用,就来试一试,然而superset更新迭代的速度太快,里面也有太多的坑,花了两天的时间踩完,下面就把流程以及相应的坑分享~ superset github地址:https://github.com/apache/incubator-superset 官方文档:http://superset.apache.org/installatio
linux环境下安装mysql数据库的详细教程

1.安装数据库 1)yum -y install mysql-server(简单) yum命令自动从网上寻找mysql服务资源,下载至本地并完成安装 2)也可以自己在网上下载mysql服务,通过xftp传输至Linux系统,自己安装(一般安装在usr或opt目录下) 2.启动数据库安装完毕,执行命令service mysqld start 3.登录数据库 mysql -u root -p回车后输入密码(mysql的默认用户是root,密码为空) 4.使用数据库登录成功切换到mysql数据库,
window下homestead开发环境安装详细教程

一.资源准备链接:http://pan.baidu.com/s/1mh7qUBe 密码:p4wx 1. virtualbox.box文件放在C盘根目录上. 2. metadata.json文件放在C盘用户目录上.比如我的是 C:\Users\pc 3. Git-2.9.3-64-bit.exe 下载安装,全部默认就好. 4. vagrant_1.8.5.msi 下载安装. 5. VirtualBox-5.1.4-110228-Win.exe 下载安装. 二.简介 1. 什么是vagrant?
Python matplotlib超详细教程实现图形绘制

目录前言 1. matplotlib.patches概述 2. 绘制图形方法 3. 绘制图形步骤 4. 绘制图形属性设置透明度设置颜色 5. 小试牛刀前言我们前面对matplotlib模块底层结构学习,对其pyplot类(脚本层)类提供的绘制折线图.柱状图.饼图.直方图等统计图表的相关方法,列举往期文章如下. Python利用 matplotlib 绘制直方图 Python用 matplotlib 绘制柱状图 python 用matplotlib绘制折线图详情 Python利用matp
CentOS 7.x下的LEMP环境搭建详细教程

最近由于项目需求,将服务器从CentOS6升级到CentOS7,对应的PHP版本也升级到PHP5.6.我们熟悉的有LEMP环境一键安装包,但是本文我们将单独安装各个组件模块,并搭建一个完整的PHP运行平台. 我们常说的LNMP环境是指Linux/nginx/MySQL/PHP组合,而LEMP是什么呢?其实Nginx的发音是Engine-X = E,LEMP包是由Linux.nginx.MariaDB/MySQL和PHP组成的,那么看来LEMP和LNMP是一样的,而现在业内习惯性的称作LEMP.M
linux下安装Nginx1.16.0的教程详解

因为最近在倒腾linux,想安装新版本的nginx,找了一圈教程没有找到对应的教程,在稍微倒腾了一会之后终于成功的安装了最新版. 服务器环境为centos,接下来是详细步骤: 安装必要依赖插件 yum install -y gcc gcc-c++ pcre \ pcre-devel zlib zlib-devel openssl openssl-devel wget 创建文件夹并切换过去 mkdir /customer && cd /customer 下载安装包 (同样如果想安装其他的版本
linux操作系统利用python实现任务管理器可视化功能

1.python安装 1.创建一个文件夹, mkdir python 进入文件夹下,进行解压: tar zxvf Python-3.6.5.tar 进入Python-3.6.5这个文件夹下面输入: ./configure 接下来出现一大堆过程,最后提示你 run 一个命令按照提示的命令输入就行. 输入make命令(如果提示不存在,就使用 apt install make安装即可),等待就行. make && make install #编译并安装继续等待安装完成即可. 这时我们cd到根
VMware安装Linux CentOS 7.7系统的详细教程

如何在Vmware安装Linux CentOS 7.7系统,并且是最小化安装.之后进行必要的配置修改,并实现基础优化.最后做一个快照. 安装Linux CentOS 7.7 安装要求:安装后的虚拟机用于服务器,因此要最小化安装,不要安装多余的软件,也不需要安装图形化界面. 虚拟机如何创建参见:「VMware如何创建虚拟机并设置虚拟机网络>」启动虚拟机安装CentOS 7 选择(通过上下键切换选项)第一个,安装CentOS 7 键盘及语言选择选择键盘模式,选择语言以及语言所在国家(比如:美国
linux下利用Docker安装mysql的步骤

作为一个测试人员,在学习的过程中,可能经常需要去在linux下安装一些软件,有的软件通过搜索别人的博客教程进行安装的话,随着一些软件的升级,以及虚拟机/服务器镜像版本不一致等外部因素,都有可能导致安装软件出现各种不可预知的问题,到时候还得去搜索资料逐一解决问题,挺耽误时间的. 而且,像linux下这些软件的安装,一般都是运维的事情,测试作为学习使用的话,安装好一个mysql数据库用于学习使用就行,新手不建议在linux下下载源码去安装软件,容易出问题. 接下来为大家演示一下,如何通过docker