7 月 30 日,亚马逊在 AWS Polly 上发布神经文本转语音系统,同时推出新闻播音员语音风格;并且通过这一工具,亚马逊与谷歌的 WaveNet、微软的 Azure Speech Service 语音系统,形成了强有力的竞争。
神经文本转语音系统
为了不被谷歌的 WaveNet(通过识别音调模式来模拟语音中的重音和语调等)超越,亚马逊在 7 月 30 日宣布了在其将文本转换为语音的云服务 Amazon Polly 中全面提供神经文本到语音和新闻播音员风格的功能。
正如亚马逊网络服务技术传道者 Julien Simon 在一篇博客文章中指出的那样,通过增加自然性和表现力,神经文本到语音的转换可以显著改善语音质量。而加入了新闻播音员的风格,这会使得对于新闻文章和博客帖子这样的叙事内容听起来「更加真实」,这是通过神经文本到语音的底层机器学习算法实现的。Simon 说:「多亏了波莉和新闻播音员的风格,听众才可以享受使用高质量的声音所阅读的文章,这种声音听起来就像他们在电视或广播中听到的那样。」
像 Globe and Mail、Gannett、BlueToad、TIM Media、大英百科全书(Encyclopedia Britannica)、非盈利教育技术公司 CommonLit 以及游戏开发商 Volley 等客户已经在通过 Polly 来使用新闻播音员风格。今年 1 月,亚马逊将其推出到支持 Alexa 的设备上,用于每日简报和维基百科片断解说(https://venturebeat.com/2019/01/16/alexa-newscaster-voice/ )。
新闻主播风格有两种可用的英语语音,而神经文本到语音的转换可适用于 11 种语音,包括三种美国英语语音和八种美国英语语音。两者都是实时和批处理模式工作,目前它们可以在美国东部(弗吉尼亚北部),美国西部(俄勒冈州)和欧洲(爱尔兰)AWS 区域访问。
从第一次语音请求(标准或 NTTS)开始,前 12 个月每月最多 100 万个字符的神经文本到语音的转换都是免费的;在此之后用户将需要进行有偿使用。
使用 AI 生成仿人语音
亚马逊在去年年底的一篇文章中详述了其关于神经文本到语音的转换换方面的研究《数据缩减对序列到序列神经 TTS 的影响》( )。
研究人员在该论文中描述了一个系统,这个系统可以从短短几个小时的训练中学会采用一种新的说话方式,而不是像配音演员那样,可能需要几十个小时才能以目标风格进行阅读。
亚马逊的 AI 模型由两部分组成。第一种是生成神经网络,它将一系列音素(感知上不同的声音单位,可以区分一个词和另一个词,如 p a d 和 p a t 中的 p、b、d 和 t)转换成一系列谱图序列,或者随时间变化的声音频率谱的视觉表示。第二种是声码器,它将这些频谱图转换成连续的音频信号。
音素-谱图解释器网络是从序列到序列的,这意味着它不会仅仅从相应的输入计算输出,而是考虑它在输出序列中的位置。除了「风格编码」之外,亚马逊的科学家还使用音素序列和相应的光谱图序列对其进行了训练,该风格编码确定了训练示例中使用的特定说话风格。该模型的输出被输入到声码器中,并且声码器无论是否在训练期间获得某一扬声器的数据,都可以从该扬声器中获取频谱图。
结果
最终,该研究将得到一种 AI 模型训练方法,这个方法可以将大量的中性风格的语音数据与仅有几个小时的所需风格的补充数据相结合;以及一个 AI 系统,该 AI 系统能够区分独立于讲话风格和该风格独有的语音元素。
亚马逊 TTS 研究部高级经理 Andrew Breen 在之前的博客文章中写道:「教 Alexa 根据客户要求的背景调整她讲话风格这一功能,开启了以前无法想象的、新的、令人愉快的体验的可能性。」
通过神经文本到语音的转换和新闻播音员风格,亚马逊与谷歌在 2 月份推出了一种语音功能(31 种新的 WaveNet 语音和 24 种新的标准语音,其 Cloud Text-to-Speech 服务使 WaveNet 语音的总数达到 57)有了很强劲的竞争;而它的另一个竞争对手是微软,因为微软通过 Azure Speech Service API 提供了三个 AI 生成的预览语音和 75 个标准语音。