通过Python的speech_recognition库将音频文件转为文字

目录
  • 前言
  • 一、音频准备
  • 二、音频声音
  • 三、格式转换
  • 四、音频转文字
    • 1.引入库
    • 2.定义音频路径
    • 3.创建一个Recognizer对象
    • 4.打开音频文件,将音频文件读入Recognizer对象
    • 5.尝试使用Google Web API将语音转换为文字
    • 6.转换结果
  • 总结

前言

大家好,我是空空star,本篇给大家分享一下通过Python的speech_recognition库将音频文件转为文字。
上一篇已经介绍了相关的库speech_recognition

Python-语音转文字相关库介绍

一、音频准备

这里我们通过gTTS先生成一段音频,gTTS相关的介绍可以看博主之前写的博客。

通过Python的gtts库将文字转为音频

from gtts import gTTS
local = '/Users/kkstar/Downloads/video/'
text = '大家好,我是空空star,本篇给大家分享一下音频转文字,这是通过speech_recognition转换的文字。'
language = "zh-cn"
tts = gTTS(text=text, lang=language)
tts.save(local+"audio_gtts_0509.mp3")

二、音频声音

音频转文字_0509

三、格式转换

mp3转为wav。
这里不能只改后缀,需要用音频转换工具转换下。
audio_gtts_0509.mp3->audio_gtts_0509.wav

四、音频转文字

1.引入库

import speech_recognition as sr
import speech_recognition as sr

2.定义音频路径

local = '/Users/kkstar/Downloads/video/'

3.创建一个Recognizer对象

r = sr.Recognizer()

4.打开音频文件,将音频文件读入Recognizer对象

音频文件必须是wav的格式

# 打开音频文件
with sr.AudioFile(local+'audio_gtts_0509.wav') as source:
    # 将音频文件读入Recognizer对象
    audio = r.record(source)

5.尝试使用Google Web API将语音转换为文字

try:
    text = r.recognize_google(audio, language='zh-CN')
    print('转换结果:', text)
except sr.UnknownValueError:
    print('无法识别语音')
except sr.RequestError as e:
    print('无法连接到Google Web API. {0}'.format(e))

6.转换结果

转换结果: 大家好我是空空Store本篇给大家分享一下音频转文字这是通过Keep下划线recognition转换的文字

Process finished with exit code 0

总结

recognize_google: recognize_google() 是Google提供的一种语音识别API,可以识别音频文件或麦克风录制的语音,并将其转换为文本。在Python中,可以使用SpeechRecognition库中的recognize_google()方法来调用该API。

到此这篇关于通过Python的speech_recognition库将音频文件转为文字的文章就介绍到这了,更多相关Python音频文件转为文字内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python语音合成之第三方库gTTs/pyttsx3/speech横评(内附使用方法)

    目录 Python文字转语音(调研&成品函数) 什么是语音合成技术? 如何用代码实现? gTTS库 pyttsx3库 speech库 总结 Python文字转语音(调研&成品函数) 由于项目需要, 我需要将文字转换为语音, 那么第一步就要进行调研 什么是语音合成技术? 语音合成(text to speech),简称TTS.是将文字转化为语音的一种技术,是让计算机模拟人类的嘴巴,通过不同的音色说出想表达的内容, 是人机对话的一部分.TTS可以通过神经网络的设计,把文字智能地转化为自然语音流.

  • 通过Python的gtts库将文字转为音频的操作方法

    目录 前言 一.背景 二.TTS名词解释 三.GTTS名词解释 四.实现方式 gTTS 1.引入库 2.定义需要转换的文本 3.设置中文发音 4.将文本转换为语音 5.保存语音文件 五.语音效果 前言 大家好,我是空空star,本篇给大家分享一下使用python将文字转成音频. 一.背景 文字转音频可以帮助视觉障碍者通过听取声音来获取信息:也可以帮助人们方便地听取一些长篇文章或学习资料,节省阅读时间和疲劳.同时,对于一些语言学习者,文字转音频也可以帮助其更好地学习语音语调,提高语言表达能力. 二

  • 如何通过Python的pyttsx3库将文字转为音频

    目录 前言 一.pyttsx3是什么? 二.安装pyttsx3 三.查看pyttsx3版本 四.pyttsx3的使用 1.引入库 2.定义需要转换的文本 3.初始化pyttsx3引擎 4.设置声音 5.设置语速 6.设置音量 7.播放语音 8.保存语音 9.等待完成语言转换 五.语音效果 总结 前言 大家好,我是空空star,本篇给大家分享一下通过Python的pyttsx3库将文字转为音频. 一.pyttsx3是什么? pyttsx3是一个开源的Python文本转语音库,可以将文本转换为自然的

  • Python 利用pydub库操作音频文件的方法

    最近使用Python调用百度的REST API实现语音识别,但是百度要求音频文件的压缩方式只能是pcm(不压缩).wav.opus.speex.amr,这里面也就wav还常见一点,但是一般设备录音得到的文件都是mp3,这就要把mp3转换为wav,由于python的效率并不高,很多实现都是使用C++或者Java,不过GitHub上有一个项目pydub(https://github.com/jiaaro/pydub/tree/master/pydub)可以暂时解决问题. 安装pydub 直接执行以下

  • python通过wxPython打开一个音频文件并播放的方法

    本文实例讲述了python通过wxPython打开一个音频文件并播放的方法.分享给大家供大家参考.具体如下: 这段代码片段使用wx.lib.filebrowsebutton.FileBrowseButton控件打开一个wav文件,使用wx.Sound播放 import wx import wx.lib.filebrowsebutton class MyFrame(wx.Frame): def __init__(self, parent, mytitle, mysize): wx.Frame.__

  • python使用win32com库播放mp3文件的方法

    本文实例讲述了python使用win32com库播放mp3文件的方法.分享给大家供大家参考.具体实现方法如下: # Python supports COM, if you have the Win32 extensions # check your Python folder eg. D:\Python23\Lib\site-packages\win32com # also http://starship.python.net/crew/mhammond/win32/Downloads.html

  • 使用python的pandas库读取csv文件保存至mysql数据库

    第一:pandas.read_csv读取本地csv文件为数据框形式 data=pd.read_csv('G:\data_operation\python_book\chapter5\\sales.csv') 第二:如果存在日期格式数据,利用pandas.to_datatime()改变类型 data.iloc[:,1]=pd.to_datetime(data.iloc[:,1]) 注意:=号,这样在原始的数据框中,改变了列的类型 第三:查看列类型 print(data.dtypes) 第四:方法一

  • Python利用PyPDF2库获取PDF文件总页码实例

    Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去: 1.首先,要安装PyPDF2库,利用以下命令即可: pip install PyPDF2 2.接着,就是直接编写代码了,其中我新建了一个py文件,名为file_utils.py,代码如下: from PyPDF2 import PdfFileReader def get_num_pages(file_path): """ 获取文件总页码 :param file_path: 文件

  • Python使用PyYAML库读写yaml文件的方法

    目录 一,YAML 简介 二,YAML 语法 三,安装第三方yaml文件处理库PyYAML 四,读取yaml文件 1,从yaml中读取字典 2,从yaml中读取list 3,从yaml中读取元组 4,从yaml中读取多组数据 五,写入yaml文件 1,单组数据写入yaml文件 2,多组数据写入yaml文件 Python中yaml文件的读写(使用PyYAML库).最近在搭建自动化测试项目过程中经常遇到yaml文件的读写,为了方便后续使用,决定记下笔记. 最近在搭建自动化测试项目过程中经常遇到yam

  • Python安装xarray库读取.nc文件的详细步骤

    目录 第一步: 第二步: 第三步: 附:Python使用xarray读取.nc文件并画出平均值 总结 太坑了,安装之前一定要关掉VPN!!!!!!我的python是3.8版本的. 第一步: 在命令行中输入以下代码安装xarray: conda install xarray 此时直接打开.nc文件可能会报错误,如果错误显示与IO有关,那么必须手动安装scipy和netCDF4,这两个库是用于支持xarray输出的库,如果不添加,就无法输出.nc文件. 第二步: 在命令行中输入以下代码安装scipy

  • 基于Python爬取素材网站音频文件

    基本环境配置 python 3.6 pycharm requests parsel 相关模块pip安装即可 目标网页 请求网页 import requests url = 'https://www.tukuppt.com/peiyue/zonghe_0_0_0_0_0_0_1.html' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

  • python requests 库请求带有文件参数的接口实例

    有些接口参数是一个文件格式,比如fiddler 抓包参数如下显示 这个接口的 form-data fiddler 显示的和不带文件参数的接口有明显区别,显示的不是简单的键值对,所以我们也不能只通过 data给接口传参,需要再value为<file>的参数通过 files传参 data = { "CSRFName": "CSRFName", "CSRFToken": "CSRFToken", "import

  • python调用百度语音识别实现大音频文件语音识别功能

    本文为大家分享了python实现大音频文件语音识别功能的具体代码,供大家参考,具体内容如下 实现思路:先用ffmpeg将其他非wav格式的音频转换为wav格式,并转换音频的声道(百度支持声道为1),采样率(值为8000),格式转换完成后,再用ffmpeg将音频切成百度. 支持的时长(30秒和60秒2种,本程序用的是30秒). # coding: utf-8 import json import time import base64 from inc import rtysdb import ur

随机推荐