TTS语音模块：XFS5152CE语音合成模块详解

云烟 • 9小时前 • 编程

欢迎大家来到IT世界,在知识的湖畔探索吧!

TTS是Text To Speech的缩写，即”从文本到语音”，是人机对话的一部分，让机器能够说话。

语音播报功能的实现方式

TTS语音模块，比如XFS5152、SYN6288等
ISD4000系列语音录放芯片分段输出
可以按键、UART控制的mp3解码芯片模块
OTP(One Time Programable)语音芯片[可定制]

其中TTS语音模块使用起来最方便灵活，OTP语音芯片最简单。

本文将介绍一下科大讯飞的XFS5152CE语音合成模块。

XFS5152CE语音合成模块

XFS5152CE是一款高集成度的语音合成芯片，可实现中文、英文语音合成；并集成了语音编码、解码功能，可支持用户进行录音和播放；除此之外，还创新性地集成了轻量级的语音识别功能，支持30个命令词的识别。

内置的30个语音识别命令词

欢迎大家来到IT世界,在知识的湖畔探索吧!

手册说如果需要定制命令词需要跟厂家联系，我体验了一下，识别的准确率不是很高。

如果需要语音识别功能，可以使用LD3320模块，参考网文：

LD3320语音识别模块：LDV7模块使用详解

如果需要录音模块，建议使用ISD系列录音芯片，参考网文：

简单好用的ISD1820语音录放芯片

为了使用方便，我们可以直接购买现成的XFS5152CE语音合成模块。

通讯接口

XFS5152CE 芯片支持 UART 接口、I2C 接口、SPI 接口三种通讯方式，可通过 UART 接口、 I2C 或 SPI 接口接收上位机发送的命令和数据，允许发送数据的最大长度为 4K字节。

用户在使用语音编解码功能时（通讯接口必须选择 UART 接口，并且波特率设置为 bps），上位机发送启动编解码的命令给语音芯片，芯片内部的语音编解码模块把采集到的音频数据进行编码并通过UART接口实时传送给上位机，或者对上位机传送来的音频数据进行解码并实时播放出来。

接线方式

· PC上使用官方演示程序《科大讯飞语音合成芯片PC端演示程序》，使用串口通信进行测试的接线方式如下：

· 如果使用单片机与XFS5152CE语音合成模块联用，模块的8脚和10脚与STM32的串口交叉连接（我使用的是串口2），7脚用于判断语音模块当前的状态，原理图如下所示：

注意：

关于功放引脚4脚和6脚：可以根据喇叭的功率来选择相应功率的功放，比如5W以内喇叭可以选择单声道功放XPT8871、LTK5128，15W的喇叭可以选择TDA7297等双声道功放；
关于语音识别：只有使用语音识别功能的时候才需要接咪头（如：9767型咪头），且只能识别芯片指定的30条命令词；
通过模块板子上的拨码开关选择波特率，如拨到”√XX√”表示9600，模块的通讯比特率要跟上位机或者与之相连的单片机的比特率一致；
3.3V供电。

语音播报功能的代码实现

1. 串口初始化

参考网文：

STM32F103 串口的使用方法

uart2_init();

欢迎大家来到IT世界,在知识的湖畔探索吧!

通过拨码开关设置波特率为：

2. 工作状态指示输出引脚初始化

/BSY引脚用于指示当前的工作状态，低电平代表Ready状态，高电平代表Busy状态。用单片机的一个GPIO与之相连，可以读取该IO的输入状态，即可获取当前模块处于的工作状态。

欢迎大家来到IT世界,在知识的湖畔探索吧!#define U5152_BSY GPIO_ReadInputDataBit(GPIOA,GPIO_Pin_0) void U5152_Init(void) { GPIO_InitTypeDef GPIO_InitStructure; RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOA,ENABLE); //U5152_BSY GPIO_InitStructure.GPIO_Pin = GPIO_Pin_0; //PA0 GPIO_InitStructure.GPIO_Mode = GPIO_Mode_IPU; //设置成上拉输入 GPIO_Init(GPIOA, &GPIO_InitStructure); //初始化GPIOA0 }

3. 封装播报语音函数

控制标识需要按照语音合成命令的格式发送，控制标记作为文本进行合成，即合成命令是”帧头 + 数据区长度 + 合成命令字 + 文本编码格式 + 控制标记文本”的格式。

语音合成命令帧示例：

/* * 名 称： YS-XFS5051 文本合成函数 * 功 能： 发送合成文本到XFS5051芯片进行合成播放 * 入口参数： *HZdata:文本指针变量 * 出口参数： * 说 明： 本函数只用于文本合成，具备背景音乐选择。默认波特率9600bps。 * 调用方法：例： SYN_FrameInfo（"欢迎关注微信公众号：程序员小哈"）； / void XFS_FrameInfo(char *HZdata) { /需要发送的文本/ unsigned char Frame_Info[50]; //定义的文本长度 xdata unsigned int HZ_Length; HZ_Length =strlen(HZdata); //需要发送文本的长度 /*帧固定配置信息/ Frame_Info[0] = 0xFD ; //构造帧头FD Frame_Info[1] = 0x00 ; //构造数据区长度的高字节 Frame_Info[2] = HZ_Length+2; //构造数据区长度的低字节 Frame_Info[3] = 0x01 ; //构造命令字：合成播放命令 Frame_Info[4] = 0x01; //文本编码格式：GBK /*发送帧信息*/ memcpy(&Frame_Info[5], HZdata, HZ_Length); USART2_OUT(Frame_Info,5+HZ_Length); //发送帧配置 }

4. 播报当前时间语音

欢迎大家来到IT世界,在知识的湖畔探索吧!while(U5152_BSY){} sprintf((char*)dtbuf,"[v5][s5][m55]当前时间为%02d时%02d分%02d秒",NowHour,NowMinute,NowSecond); XFS_FrameInfo((char*)dtbuf) ; delay_ms(10); while(U5152_BSY){}

5. 文本控制标记

XFS5152CE 芯片的语音合成功能支持多种文本控制标记，可以满足用户对语音合成发音人、音量、语速、语调等的设置。文本控制标记的格式一般是半角中括号（即”[]”）内一个小写字母、一个阿拉伯数字，如： [m3]为使用女声的发音人小燕。

文本控制标记举例sprintf((char*)dtbuf,"[v5][s5][m3]当前时间为%02d时%02d分%02d秒 \r\n",NowHour,NowMinute,NowSecond);

[v5]：代表音量值，有效范围为：0~10；

[s5]：为语速值，取值范围为：0~10；

[m3]：选择发音人为小燕（女声）

总结

模块优点，文字转语音很方便，很灵活
价格较贵，所以我们很多情况不需要功能这么强大的TTS语音模块，有些场景，我们甚至没有必要购买TTS语音模块，比如语音开发中常见的费用催缴，拨通后播放：”尊敬的客户，您本月的费用是：212元”，前面部分对所有客户都一样，录一个语音文件就是了，而数字的合成是很简单的，你只要录制好10个数字语音，再加上十，百，千，万，再加上金钱的单位”元”即可。

资料获取

微信公众号后台回复”XFS5152CE语音合成模块“，可以下载模块相关资料。

推荐阅读：

STM32F103 串口的使用方法

LD3320语音识别模块：LDV7模块使用详解

简单好用的ISD1820语音录放芯片

喜欢请关注微信公众号：程序员小哈

公众号内容面向在校大学生、电子爱好者、嵌入式工程师；

涉及电子制作、模块使用、单片机技术、物联网相关知识分享；

玩模块，学硬件，带你从0走到1

若觉得本次分享的文章对您有帮助，随手收藏并转发分享，也是对我的支持。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/104760.html