谷歌发布升级版语音合成系统,直接从字符合成语音
科技改变生活
近日,谷歌推出了新的语音合成系统Tacotron 2,这是一种直接从文本中合成语音的神经网络结构,即新型TTS系统,该系统结合了初代Tacotron和Deepmind WaveNet等研究的经验,在能力上有了进一步提升。
TTS技术即从文本到语音,它是语音合成应用的一种。在搭载神经网络算法的语音控制器作用下,文本输出的语音音律应使听众在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感,但是目前还没有一款系统可以做到。
2017年3月,谷歌推出了一种新的端到端语音合成系统Tacotron。该系统可以接收字符输入并输出相应的原始频谱图,然后将其导入Griffin-Lim重建算法直接生成语音。
谷歌在其论文《Tacotron:一个完全端到端的文本转语音合成模型》中介绍了该TTS系统的工作原理,一个文本转语音的合成系统需要文本分析前端、声学模型和音频合成模块等多个处理阶段,而Tacotron可以直接从字符合成语音,通过配对数据集的训练,该模型可以完全从随机初始化从头开始训练。
七个月后,Deepmind也推出了自己的语音生成商用模型WaveNet,它使用卷积神经网络构建,并在此前测试版本的基础上把效率提高了1000倍。之所以进步如此神速,是因为其用一个完全训练好的WaveNet模型教另一个子网络如何推理,该网络的架构是一个规模不大的卷积神经网络的拓展,这样一来,语音生成时就可以把所有单词全部同时生成出来。
针对Tacotron 2,谷歌同样发布了一篇论文《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》,对其新系统做了介绍。
该系统是经过序列到序列(sequence-to-sequence)模型优化的TTS,即增加了将字母序列映射为音频编码序列等一系列功能,不仅可以捕捉单词发音,还能捕捉人类语音的各种细微特征,包括音量,速度和语调。
该版本在输出端增加了 WaveNet MoL,使WaveNet和Tacotron的优点得到发挥,在最后的测试中,研究人员抽取了100个音频样例,要求听众对不同TTS系统生成语言的自然度评分。结果显示,Tacotron 2的平均意见得分约为4.53(满分5),明显优于其他模型,即使是真正的人类语音也只能得到4.667的分数。
虽然Tacotron 2取得了很大的进步,但研究人员表示,还有一些难题等待突破,包括复杂单词的发音困难,不能实时生成音频以及无法将人类的情绪加到生成的声音中等。
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- python上selenium的弹框操作实现
- php分享朋友圈的实现代码
- Laravel框架Request、Response及Session操作示例
- 利用scikitlearn画ROC曲线实例
- 小程序微信退款功能实现方法详解【基于thinkPHP】
- PHP回调函数简单用法示例
- PHP explode()函数用法讲解
- 详解提高使用Java反射的效率方法
- PHP fopen函数用法实例讲解
- python正则表达式的懒惰匹配和贪婪匹配说明
- PyQt5-QDateEdit的简单使用操作
- thinkphp5实现无限级分类
- Python numpy矩阵处理运算工具用法汇总
- Django后端分离 使用element-ui文件上传方式
- PHP fprintf()函数用法讲解