首页   快速返回

语音合成TTS简介
文章分类 skill
发布时间 2018-11-09 修改时间 2018-11-09
语音合成也叫文语转换(Text-To-Speech),简称TTS,简单理解就是“让机器说人话”。
合成技术的效果有四个考量维度:表现力、音质、复杂度和自然度。
目前的技术演进,自然度和音质都有了明显提升,
各大技术提供商更多的是在研究如何提高合成音的表现力,特别是语气和情感方面,很典型的案例产品的就是高德用林志玲和郭德纲的声音播报路况。

一条音频的合成过程包括两个步骤:首先是制作语音库,然后是使用语音库将文本变成音频的过程。

制作语料库需要录制用户数小时的干声,对录音开展数据标注,再进行特征训练和技术优化,
才能使韵律、音色、音质及自然度更加贴近,让合成的声音更加自然、流畅。
以高德地图中林志玲的导航声音为例,在开始合成之前,首先是请志玲姐姐录了一些音频。
这些音频不是随意说说就可以的,科大讯飞研究团队为林志玲做了特别设计——除了设计均衡的发音组合、长短语句外,
还专门为体现她的“娃娃音”增添了语气词,并结合导航应用做了偏向设计。所以能用最短的语料做出最好的效果。

之后就是把文本合成成语音。输入文本后,首先需要按照词典规则对文本进行语言处理,
比如模拟人对自然语言的理解过程,包括文本规整、词的切分、语法语义分析,使计算机对输入的文本能完全理解,
并给出后续步骤所需要的各种发音提示。然后是韵律处理,就是为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然。

最后根据前两部分处理结果的要求输出语音,即合成语音。

语音合成技术的应用范围也很广。汽车导航内嵌的语音系统、智能手机语音助手、读书软件等等,
这些应用的实现都离不开语音合成,时下热门的AR、机器人、可穿戴设备等也为语音合成技术落地提供了更广阔的市场。

上一篇     下一篇
实用英语400句2

实用英语400句3

实用英语400句4

JAVA架构师面试题

Java线程状态中BLOCKED和WAITING的区别

Java运行时数据区