王之捷：AI智能云端架构大幅提升智能语音识别能力

腾讯云AI业务架构师王之捷分享了腾讯云在人工智能、尤其在智能云方面的最新进展，以及如何将这些能力应用到工作当中。

王之捷表示，不断增强的计算能力、日益积累的海量数据，和先进的模型算法作为三大基石支撑并促进了人工智能的发展。

在计算能力方面，腾讯云拥有强大的基础设施，这主要得益于腾云遍布国内的服务器，使得腾讯云能够在大范围使用GPU，同时输出，并且能够在全球34个国家和地区能够接触到；在海量数据方面，依托QQ、微信10亿级别的用户群应用，每天都能积累超过数千万的图片数据、数十万小时的语音数据和千亿级别的文本量数据，为机器深度学习提供了强大的数据基础；在先进的模型算法方面，AI LAB、优图实验室、微信智能语音等，并且在这些领域吸引了数十名国内外专家，使腾讯云的算法能力始终保持在业界领先水平。

尤其在智能语音领域，腾讯云2010年开始深入研究语音深度学习模型DNN和LSTM等，后来则采取了双向LSTM，再结合CNN识别，形成CLDNN模型，再到现在端到端模型，实现了语音和文本的智能双向转换。后来，针对数据量的几何级增长，借助GPU加速的矩阵运算，语音识别的准确率不断提升。在噪音场景下，识别错误率由2010年的40%降低到了18%，对日常口语识别错误率也由以前的20%~30%下降到10%~15%；而在标准朗读的情况下，识别错误率更从原来的10%降低到了3%~5%，换言之，识别准确率高达97%，处于业界领先水平。

不仅如此，腾讯云独创的创新方法还支持语言模型的并行解码，可以在一套系统上面同时加载多个语言模型，在同时识别的时候自动挑选一个识别效果最好模式，由此解决了垂直领域的定制问题。

点击下载演讲资料：

王之捷：AI智能云端架构大幅提升智能语音识别能力.pdf

AI智能云端架构大幅提升智能语音识别能力.zip