基于Python实现语音识别和语音转文字

2025-01-28 07:16:17

前言

嗨嗨，大家好呀 ~ 今天给你们分享一个有趣的东西 ~

是一个语音识别跟语音转文字的小工具

感兴趣的朋友可以继续往下滑咯

直接使用

在1.2官网注册后拿到APISecret和APIKey，

直接复制文章2.4demo代码，

保存为online_tts.py，

在命令行执行

python online_tts.py -client_secret=你的client_secret -client_id=你的client_id -file_save_path=test.wav --text=今天天气不错

获取权限

Python调用标贝科技语音合成接口，实现文字转语音

1.环境准备

Python 3

2.获取权限

标贝科技 https://ai.data-baker.com/#/?source=qwer12

1.2.1 登录

点击产品地址进行登录，支持短信、密码、微信三种方式登录。

1.2.2 创建新应用

登录后进入【首页概览】，

各位开发者可以进行创建多个应用。

包括一句话识别、长语音识别、录音文件识别；

在线合成、离线合成、长文本合成。

1.2.3 选择服务

进入【已创建的应用】，左侧选择您需调用的AI技术服务，右侧展示对应服务页面概览（您可查询用量、管理套餐、购买服务量、自主获取授权、预警管理）。

1.2.4 获取Key&Secret

通过服务 / 授权管理，获取对应参数，

进行开发配置

拿到Key和Secret就可以正式使用啦！

代码实现

1.获取access_token

在拿到Key和Secret后，

我们还需要调用授权接口获取access_token，

这个access_token有效时长是24小时。

需要源码、教程，或者是自己有关python不懂的问题，都可以来这里哦 https://jq.qq.com/?_wv=1027&k=xJU8WKpY 这里还有学习资料与免费课程领取

# 获取access_token用于鉴权
def get_access_token(client_secret, client_id):
    grant_type = "client_credentials"
    url = "https://openapi.data-baker.com/oauth/2.0/token?grant_type={}&client_secret={}&client_id={}".format(grant_type, client_secret, client_id)
    response = requests.post(url)
    access_token = json.loads(response.text).get('access_token')

    return access_token

2.获取转换后音频

拿到access_token后，

调用语音合成接口，

就可以获得生成的音频

# 获取转换后音频
def get_audio(data):
    url = "https://openapi.data-baker.com/tts?access_token={}&domain={}&language={}&voice_name={}&text={}&audiotype={}".format(data['access_domain'], data['domain'], data['language'], data['voice_name'], data['text'], data['audiotype'])
    response = requests.post(url)
    content_type = response.headers['Content-Type']
    if 'audio' not in content_type:
        raise Exception(response.text)
    return response.content

3.配置接口参数

client_secret和client_id：在文章1.2的官网获取，必填

file_save_path：文件保存路径，必填

text：需要转换的文本内容

audiotype：音频类型，默认16K采样率wav格式

domain：所属领域，默认1

language：合成后文本语言，默认中文“zh"

voice_name：发音人选择，默认“Lingling"，

# 获取命令行输入参数
def get_args():
    text = '欢迎使用标贝开发平台。'
    parser = argparse.ArgumentParser(description='ASR')
    parser.add_argument('-client_secret', type=str, required=True)
    parser.add_argument('-client_id', type=str, required=True)
    parser.add_argument('-file_save_path', type=str, required=True)
    parser.add_argument('--text', type=str, default=text)
    parser.add_argument('--audiotype', type=str, default='6')
    parser.add_argument('--domain', type=str, default='1')
    parser.add_argument('--language', type=str, default='zh')
    parser.add_argument('--voice_name', type=str, default='Lingling')
    args = parser.parse_args()

    return args

4.完整demo

#!/usr/bin/env python
# coding: utf-8
import requests
import json
import argparse

# 获取access_token用于鉴权
def get_access_token(client_secret, client_id):
    grant_type = "client_credentials"
    url = "https://openapi.data-baker.com/oauth/2.0/token?grant_type={}&client_secret={}&client_id={}".format(grant_type, client_secret, client_id)
    response = requests.post(url)
    access_token = json.loads(response.text).get('access_token')

    return access_token

# 获取转换后音频
def get_audio(data):
    url = "https://openapi.data-baker.com/tts?access_token={}&domain={}&language={}&voice_name={}&text={}&audiotype={}".format(data['access_domain'], data['domain'], data['language'], data['voice_name'], data['text'], data['audiotype'])
    response = requests.post(url)
    content_type = response.headers['Content-Type']
    if 'audio' not in content_type:
        raise Exception(response.text)
    return response.content

# 获取命令行输入参数
def get_args():
    text = '欢迎使用标贝开发平台。'
    parser = argparse.ArgumentParser(description='ASR')
    parser.add_argument('-client_secret', type=str, required=True)
    parser.add_argument('-client_id', type=str, required=True)
    parser.add_argument('-file_save_path', type=str, required=True)
    parser.add_argument('--text', type=str, default=text)
    parser.add_argument('--audiotype', type=str, default='6')
    parser.add_argument('--domain', type=str, default='1')
    parser.add_argument('--language', type=str, default='zh')
    parser.add_argument('--voice_name', type=str, default='Lingling')
    args = parser.parse_args()

    return args

if __name__ == '__main__':
    try:
        args = get_args()

        # 获取access_token
        client_secret = args.client_secret
        client_id = args.client_id
        access_token = get_access_token(client_secret, client_id)

        # 读取参数
        audiotype = args.audiotype
        domain = args.domain
        language = args.language
        voice_name = args.voice_name
        text = args.text
        data = {'access_domain': access_token, 'audiotype': audiotype, 'domain': domain, 'language': language,
                'voice_name': voice_name, 'text': text}
        content = get_audio(data)

        #保存音频文件
        with open('test.wav', 'wb') as audio:
            audio.write(content)
        print("task finished successfully")
    except Exception as e:
        print(e)

5.执行

复制所有代码，保存为online_tts.py，在命令行执行

python online_tts.py -client_secret=你的client_secret -client_id=你的client_id -file_save_path=test.wav --text=今天天气不错

到此这篇关于基于Python实现语音识别和语音转文字的文章就介绍到这了,更多相关Python语音识别语音转文字内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python实现语音识别和语音合成功能

声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移. 通过傅里叶变换,可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础. 案例:画出语音信号的波形和频率分布,(freq.wav数据地址) # -*- encoding:utf-8 -*- import numpy as np import numpy.fft as nf import scipy.io.wavfil
Python语音识别API实现文字转语音的几种方法

搜狗(目前好用,免费) def textToAudio_Sougou(message, filePath): # https://ai.so gou.com/doc/?url=/docs/content/tts/references/rest/ ''' curl -X POST \ -H "Content-Type: application/json" \ --data '{ "appid": "xxx", "appkey":
Python详解文字转语音的实现

前言: 这是一篇简单的Python文字(汉字)转语音教程,当然对于其他语言工具在实现的方法上也是一样的 . 汉字转语音实现就分为两步,第一步将汉字转为拼音,第二步通过拼音调用相匹配的音频文件.下面是具体的开发实例教程. 开发环境:Windows Python版本:3.x 外置模块准备:pygame(可直接在cmd命令行中pip install pygame安装) 汉字转拼音我使用的是将汉字转为Unicode码,然后通过查询一个匹配文件(我使用的是unicode_py.txt)获取该汉字的拼音,
python3实现语音转文字(语音识别)和文字转语音(语音合成)

话不多说,直接上代码运行截图 1.语音合成 -------> 执行: 结果: 输入要转换的内容,程序直接帮你把转换好的mp3文件输出(因为下一步–语音识别–需要.pcm格式的文件,程序自动执行格式转换,同时生成17k.pcm文件,暂时不用管,(你也可以通过修改默认参数改变文件输出的位置,名称及是否进行pcm转换 <------- 2.语音处理 ----> 方便起见, 我们直接运行语音处理程序,识别我们上一步的17k.pcm文件: What?识别居然出现了点错误,不过不用担心,博主已经调
python语音识别的转换方法

使用pyttsx的python包,你可以将文本转换为语音. 安装命令 pip install pyttsx3 -i https://pypi.tuna.tsinghua.edu.cn/simple 运行一个简单的语音 '大家好'. import pyttsx3 as pyttsx engine = pyttsx.init() #初始化 engine.say('大家好') engine.runAndWait() 另一种文本转语音方法. from win32com.client import Dis
Python调用百度api实现语音识别详解

最近在学习python,做一些python练习题 github上几年前的练习题有一题是这样的: 使用 Python 实现:对着电脑吼一声,自动打开浏览器中的默认网站. 例如,对着笔记本电脑吼一声"百度",浏览器自动打开百度首页. 然后开始search相应的功能需要的模块(windows10),理一下思路: 本地录音上传录音,获得返回结果组一个map,根据结果打开相应的网页所需模块: PyAudio:录音接口 wave:打开录音文件并设置音频参数 requests:GET/POS
基于Python实现语音识别和语音转文字

目录前言直接使用获取权限 1.环境准备 2.获取权限代码实现 1.获取access_token 2.获取转换后音频 3.配置接口参数 4.完整demo 5.执行前言嗨嗨,大家好呀 ~ 今天给你们分享一个有趣的东西 ~ 是一个语音识别跟语音转文字的小工具感兴趣的朋友可以继续往下滑咯直接使用在1.2官网注册后拿到APISecret和APIKey, 直接复制文章2.4demo代码, 保存为online_tts.py, 在命令行执行 python online_tts.py -clie
基于Python创建语音识别控制系统

下面附上参考文章,这篇文章是通过识别出来的文字来打开浏览器中的默认网站.python通过调用百度api实现语音识别题目很简单,利用语音识别识别说出来的文字,根据文字的内容来控制图形移动,例如说向上,识别出文字后,画布上的图形就会向上移动.本文使用的是百度识别API(因为免费),自己做的流程图: 不多说,直接开始程序设计,首先登录百度云,创建应用注意这里的API Key和Secret Key,要用自己的才能生效百度语音识别有对应的文档,具体调用方法说的很清晰,如果想学习一下可以查看REST
浅谈盘点5种基于Python生成的个性化语音方法

小编在很小的时候就特别喜欢搞怪,模仿别人的声音,尤其是老头老太太模仿的那是一个出神入化. 今天小编就带大家模仿一下个性化的声音,不过不是用小编的嘴,而是用程序,看它们都是怎么被模仿出来的. 1.gtts模块这是一款语音模块,它可以将任意文字转换为音频文件,格式为mp3.下面我们一起来看看它的用法: 一.安装并导入: pip install gtts from gtts import gTTS 二.配置gtts客户端 tts = gTTS(text=text, lang='zh-tw') tex
基于Python PaddleSpeech实现语音文字处理

目录前言环境安装项目验证 tts语音合成 asr语音识别标点恢复总结前言这段时间一直在研究飞浆平台,最近试了试PaddleSpeech项目,试着对文本语音做处理.整体的效果个人觉着不算特别优越,只能作为简单的学习使用. 项目github地址:github仓库环境安装首先我们看一下项目结构以及安装文档. 需要Python3.7以上.C++环境.requirements安装等等,下面按照我的顺序说一下. 1.conda安装Python3.9虚拟环境使用conda安装python3
基于Python编写简易文字语音转换器

话不多说上代码!源代码 from tkinter import * import pyttsx3 class Application(Frame): def __init__(self,master=None): super().__init__(master) self.master = master self.pack() self.creatWidget() # BING INPUT def creatWidget(self): self.w1 = Text(self, width=80,
python教程十行代码教你语音转文字QQ微信聊天

目录 QQ语音识别微信语音读取文件识别本地文件 QQ和微信这两款都是非常受人喜欢的聊天交友软件!可能大家平时没有留意到,也或者是大家可能很少用微信,或者很少用QQ吧!所以可能没有留意这些小细节! 截图是没发现微信的语音识别在哪里!可能是小编微信玩少了吧,一般情况来讲都是不玩微信的! QQ语音识别微信语音要调用百度AI开放平台的API,首先需要一个百度账号.我想注册百度账号的过程应该不用向大家详细介绍了,大家应该在这边都是没啥问题的.需要注意的是,百度账号的安全性挺差的,不知为啥本人的账
基于Python 的语音重采样函数解析

因为工作中会经常遇到不同采样率的声音文件的问题,特意写了一下重采样的程序. 原理就是把采样点转换到时间刻度之后再进行插值,经过测试,是没有问题的. #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 17-7-21 下午2:32 # @Author : Lei.Jinggui # @Site : http://blog.csdn.net/lccever # @File : Resample.py # @Software: PyCharm
Python基于百度API识别并提取图片中文字

利用百度 AI 开发平台的 OCR 文字识别 API 识别并提取图片中的文字.首先需注册获取 API 调用的 ID 和 key,步骤如下: 打开百度AI开放平台,进入控制台中的文字识别应用(需要有百度账号). 创建一个应用,并进入管理应用,记下 AppID, API Key, Secrect Key,调用 API需用到. 最后安装 python 的百度ai接口的的库 pip install baidu-aip 以下是代码实现,需将所有识别的图片放进名为 picture 的文件夹. #!/usr/
基于Python实现图像文字识别OCR工具

目录引言功能列表 OCR部分界面部分软件代码参考链接引言最近在技术交流群里聊到一个关于图像文字识别的需求,在工作.生活中常常会用到,比如票据.漫画.扫描件.照片的文本提取. 博主基于 PyQt + PaddleOCR 写了一个桌面端的OCR工具,用于快速实现图片中文本区域自动检测+文本自动识别. 识别效果如下图所示: 所有框选区域为OCR算法自动检测,右侧列表有每个框对应的文字内容: 点击右侧"识别结果"中的文本记录,然后点击"复制到剪贴板"即可复制该