欢迎大家来到IT世界,在知识的湖畔探索吧!
文本转语音功能是目前机器学习中的很重要的一个分支,类似我们使用到的语音助手,都需要把机器搜索到的文本答案转换成语音,再通过智能设备播放出来。随着智能设备,特别是最近几年的语音助手的流行,越来越多的AI智能公司开始研发自己的文本转语音功能,像腾讯,百度,阿里等都提供免费的API,供开发者免费使用。有了这些API接口,我们就不用使用大型的模型设备,重新训练自己的语音模型。但是,体验后每家的API接口后,个人觉得Azure的文本转语音功能,最接近人声。
—-1—-
Windows Azure
Microsoft Azure是微软基于云计算的操作系统,原名“Windows Azure”,和Azure Services Platform一样,是微软“软件和服务”技术的名称。Microsoft Azure的主要目标是为开发者提供一个平台,帮助开发可运行在云服务器、数据中心、Web和PC上的应用程序。云计算的开发者能使用微软全球数据中心的储存、计算能力和网络基础服务。Azure服务平台包括了以下主要组件:Microsoft Azure,Microsoft SQL数据库服务,Microsoft .Net服务,用于分享、储存和同步文件的Live服务,针对商业的Microsoft SharePoint和Microsoft Dynamics CRM服务
有关Microsoft Azure我们不做过多的介绍,这里,我们主要介绍一下如何使用Microsoft Azure平台,搭建自己的文本转语音功能。
—-2—-
Azure 文本转语音API 搭建
若我们只是体验一下Azure的文本转语音功能,直接可以在Azure的官网上面使用,但是若是处理大量的文本,且需要实现自动化操作时,那我们就需要使用Azure的API来进行编码编辑
账号注册与登录
Azure的使用,需要我们登录Azure的账号,当然若有微软账号,同样可以使用微软账号进行登录,这里我们直接使用免费登录(Azure提供12个月的免费试用期)
成功登录后,我们便进入了后台管理界面,这里,我们便可以创建自己的资源,当然,我们不仅可以创建文本转语音的资源,也可以创建其他方便,比如图片识别,语音识别等等AI 方面的资源,我们今天按照文本转语音为例
创建Azure AI资源
这里我们点击创建资源,便可以看到Azure提供给开发者所有的免费资源,
Azure文本转语音功能在左侧类别中属于AI+机器学习类中,我们点击AI+机器学习,便可以看到下图的所有关于机器学习的API类,文本转语音便是认知服务,点击创建即可
创建Azure 认知服务
—-3—-
Azure 文本转语音创建认知服务
创建认知服务一共4个步骤
1、设置基本参数
这里,订阅我们选择免费试用即可,资源组,可以点击新建,由于小编已经新建立过资源,这里选择以前的资源也行,区域选择默认即可,当然也可以根据自己的地区进行选择。
名称为资源组的名称,定价层最好选择标准S0,当然也有免费的资源,但是免费的无法调长文本转语音API,这里重点强调一下,前期小编调试的时候就是选择了免费的(免费的针对短语音API),在进行长文本转语音时,一直报错
2、identity 选择默认即可
3、标记,命名一个名称与键值对
4、创建认知服务
点击创建后,系统会自动进行资源的创建与部署,待部署完成后,就可以看到自己创建的资源了
创建完成后,我们可以查看部署详细信息,下面有我们建立的资源组,点开资源组
我们可以看到管理密钥的按键,我们点击此按键,便可以看到我们此API的密钥了
密钥我们可以随时重新生成,在生产新密钥前,我们可以使用密钥2来进行API的相关开发
有了API的密钥,我们便可以使用文本转语音API来生产我们需要的文本语音了,这个我们后期进行相关技术分享。
import azure.cognitiveservices.speech as speechsdk
from azure.cognitiveservices.speech.audio import AudioOutputConfig
def synthesize_to_speaker():
#Find your key and resource region under the 'Keys and Endpoint' tab in your Speech resource in Azure Portal
#Remember to delete the brackets <> when pasting your key and region!
speech_config = speechsdk.SpeechConfig(subscription="<paste-your-resource-key>", region="<paste-your-region>")
#In this sample we are using the default speaker
#Learn how to customize your speaker using SSML in Azure Cognitive Services Speech documentation
audio_config = AudioOutputConfig(use_default_speaker=True)
synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config, audio_config=audio_config)
synthesizer.speak_text_async("Enter some text to synthesize.")
synthesize_to_speaker()
欢迎大家来到IT世界,在知识的湖畔探索吧!
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/17879.html