CCCF 微软沈向洋：理解自然语言：表述、对话和意境

来源：《中国计算机学会通讯》2017年第12期《CNCC2017特邀报告》

微软全球执行副总裁沈向洋博士在2017年10月25日在福州举行的中国计算机大会（CNCC2017）的特邀报告指出：人工智能在感知方向已取得重大突破，下一个突破将出现在自然语言的理解，“对话即智能”，并谈了未来人工智能的核心的三种可能。

人工智能在感知方向已取得重大突破

下一个十年最重要的研究方向是什么？毋庸置疑是人工智能。人工智能近年来的发展近乎神速，特别是在深度学习方面有了极大进展，这主要得益于“两大一精”（大计算、大数据和精准模型）的进步和突破，如图1所示。

图1 “两大一精”

人工智能其实是一个非常宽泛的概念，我们大致可以把它分为两个研究方向——感知和认知。感知中的视觉和语言进展飞速，但认知中的语言理解发展速度仍然有限。

我们在感知研究方向已经取得了非常了不起的成果，主要包括计算机语音识别和计算机视觉图像识别。在语音识别方面，几个月前在Switchboard标准测试数据集上，微软基于深度学习的语音识别系统的词错率(Word Error Rate, WER)降到了创纪录的5.1%，这意味着其精准度已超过专业速记员。其实，早在2016年10月，微软在 Switchboard 语音识别任务测试中的词错率就低至5.9%，达到了人类专业速记员的水平。图2展示了这一情况。

图2 微软的语音识别系统的词错率降低至5.1%

这两次测试转录的都是Switchboard语料库中的录音。Switchboard是一个电话通话录音语料库，自20世纪90年代以来一直被研究人员作为测试语音识别系统的样本。语音识别测试任务包括针对陌生人对话交流中的不同话题，比如对体育和政治讨论话题进行从语音到文字的转录。

词错率从5.9%降到5.1%，大家可能觉得这个进展不大，但是在“最后一英里”上，每0.1个百分点的进步都是很艰难的，而且从相对错误率降幅(relative error rate reduction)的角度来看，从5.9%降到5.1%相当于是超过10%的相对进步。

词错率降低的主要措施是改进微软语音识别系统中基于神经网络的听觉和语言模型，出错率在去年基础上降低了大约12%，同时引入了CNN-BLSTM（Convolutional Neural Network combined with Bidirectional Long-Short-Term Memory，带有双向LSTM的卷积神经网络）模型，提升了语音建模的效果。而且，系统中以前使用的从多个语音模型进行综合预测的方法，如今在帧/句音级别和单词级别下都可以发挥作用。研究人员还对整个对话过程进行历史记录分析，预测接下来可能会发生的事情，进一步加强识别器的语言模型，使其能够有效适应对话话题和语境的快速转变。值得一提的是，微软认知工具包Microsoft Cognitive Toolkit 2.1(CNTK)在研究过程中表现突出，研究人员充分利用了CNTK探索模型架构和优化模型的超参数。此外，微软对云计算基础设施（特别是Azure GPU）的投资，也帮助提升了训练模型、测试新想法的效果和速度。

实现识别准确率上的“人类对等”是语音识别领域过去25年来一直奋力追求的研究目标，微软始终坚持深耕语音识别，并力争将新技术最快、最好地运用到Cortana、Presentation Translator、Microsoft Cognitive Services等微软产品和服务中，让用户能够亲身体验新技术的魅力。尽管这项语音识别系统还存在一些应用场景的限制，但是我相信，在未来五年之内，机器的识别水平将会完全超越人类。

在计算机视觉方面，微软亚洲研究院两年前率先提出的152层残差神经网络，为图像识别提供了更多的可能性和发展空间，过去的深度学习方法从来没有成功训练过这么深的网络。我们在训练神经网络的时候也遇到了很多困难，比如到底多少层才能做到最优的结果。总体来看，深度学习在图像识别方面的趋势是更深、更准，随着近年来模型的深度越来越深，误差也会越来越少。残差学习最重要的突破在于重构了学习的过程，并重新定向了深层神经网络中的信息流，它很好地解决了此前深层神经网络层级与准确度之间的矛盾。尽管就目前而言，进一步实现层数的深度突破已经不太容易，但理论上还有很多值得深挖的研究点。我预计在十年左右，人工智能的图像识别率也会全面超越人类，这势必会给人类生活带来诸多影响，也包括一些新兴的商业机遇。

微软亚洲研究院多年来在计算机视觉领域的研究成果早已转化到众多微软的智能产品和服务中，包括微软牛津计划中的人脸识别和图像识别API、Windows 10中的Windows Hello“刷脸”开机功能、必应的图像搜索、微软小冰的多个图像“技能”、OneDrive中的图片分类功能，以及广受好评的口袋扫描仪Office Lens等。

下一个突破在于自然语言的理解

在下一个十年，人工智能的突破在于自然语言的理解。我最近经常讲的一句话是，懂语言者得天下。人工智能对人类影响最为深刻的就是自然语言方面。语言理解分为表述、对话和意境三个不同的层次，机器理解自然语言的三个层次是机器学习、机器智能和机器意识。图3展示了这些关键词。

图3 人工智能的突破在于自然语言的理解

表述在今天看来已经非常成功，我们用机器学习就可以学到很多东西；

对话涉及机器智能领域，包括对话和提问，相对困难；

意境机器意识是意境的体现，是让机器拥有在意识思维基础上理解和表达诸如隐喻在内的意境的能力。

以上这三个层次是可以转换的。就像我们小的时候做作文，第一步是记叙文，第二步是论证文，第三步就是当文章写得有点水平了，我们就开始写诗歌和散文了。

我用两个具体的例子说明从感知到语言表述方面的进展。第一个是微软认知服务Image Caption，计算机系统能够为图片自动生成标题（见图4）。第二个是微软应用软件Seeing AI，系统可以自动生成照片画面内容的表述，包括画中人物的动作，甚至是表情。Seeing AI为盲人或视力障碍者而设计，可将视觉世界变成可听得见的语音体验，目前仅限于 iOS 平台使用。用户只需要拿住 iPhone 在四周移动，就可“听到”周围的环境情况，比如用iPhone摄像头对周围人的面部进行识别，Seeing AI就可以用语音播报出此人的性别、大概的年龄以及当前情绪状况；一些门牌标识和纸张文本也可以通过摄像头扫描，再由语音播报，大大方便了盲人或视力障碍者的日常生活。

图4 微软认知服务计算机视觉API——Image Caption

这其中研究的问题是图像空间到语义空间之间的关系，即如何让机器用文字去描述图像。首先，我们要有一个语义空间把图像和文字联结起来，然后通过深度结构语义模型把图像和文字均表征成语义空间内的向量，在此空间中进行语义相似度计算。

近几年来，我们在感知到语言表述方面越做越好，这很大程度上归功于我们将这项技术做成系统，供用户去体验。只要在CaptionBot系统中上传一张图片，就可以轻松得到有关这张图片的语言描述。而在对照片发表描述之后，CaptionBot会请用户对其进行反馈和评价，以此来训练CaptionBot对于照片识别的敏感度和准确率（见图5）。

图5 CaptionBot数据和用户反馈

我们做系统的原因在于，虽然我们的想法很好，但如果没有一个能够让用户亲身体验的系统，我们就很难发现自身可能存在的问题。我们曾经做了一个分析，对1000万张照片进行机器生成内容和用户态度的对比，很多用户都给我们提出了许多非常宝贵的修改建议。

因此，在做大数据的时候，一定要分析数据，分析能够帮助我们认识到接下来应该如何去做。其优点就是能够不断迭代，让项目越做越好，微软的图像描述服务系统已经根据收集到的用户数据进行了多次迭代。我相信图像描述在现实生活中的应用场景是非常丰富的，比如微软每天服务数百万办公软件用户，并应用Seeing AI软件服务盲人，单从描述这件事情上就大有可为。

“对话即智能”

我始终非常相信“对话即智能”，从回答问题到提出问题，从一问一答到连续对话。之前是机器理解，之后是问答对话生成。阅读文本及提问，首先要深度理解语言，不仅能回答问题，而且还要能够找出关键点，围绕关键点提出问题。

这需要有一个记忆机制，并且需要端到端对话生成模型（见图6）。同时，要在回复生成的过程中提炼主要的观点，综合对话情感、用户画像以及记忆。一段对话往往会发生多次话题转换，对话的时间越长，就越有机会被自然地引入期望的话题。

图6 端到端对话生成模型与记忆机制

当我们从机器表述发展到机器对话，智能到底体现到哪里呢？就是机器可以根据图片理解和表达意境，实现有意识的“脑补”。到目前为止，人工智能的研究是人做了一些事情，再加上环境，有一个表征，机器把这些输入的信息翻译成机器语言，再进行深度学习。今天绝大多数人工智能的研究都是停留在这一步，而真正有意义、对人类有贡献的，是对结果进行反向推理（见图7）。

图7 理解和表达意境：有意识的“脑补”

微软最近上线的一个激动人心的项目就是小冰写诗，其生成诗歌的基本过程是：通过前向RNN模型+反向RNN模型生成单句诗，再基于递归神经网络的层级生成模型生成整句诗。到目前为止，我们已将小冰创作的诗歌化名向多家网络及平面媒体投稿并被录用，除微软自行披露外，尚未被人类读者察觉。小冰的人工智能创造将逐步进入大规模生产阶段，包括在电视媒体、平面媒体、音乐和电视剧四个领域进行布局，目前已初步落地，为后续的内容落地做好了铺垫。

在研发小冰的过程中，我们提出了人工智能创造三原则：(1) 人工智能创造的主体（如小冰），须是兼具IQ与EQ的综合体，而不仅具有IQ；(2) 人工智能创造的产物（如小冰的诗歌与歌曲），须能成为具有独立知识产权的作品，而不仅是某种技术中间状态的成果；(3) 人工智能创造的过程（如小冰写诗或唱歌），须对应人类某种富有创造力的行为，而不是对人类劳动的简单替代，如工业机械臂那种所谓的“人工智能制造”。只有符合以上三个原则的，才能被称为“人工智能创造”。

下面是我和小冰合写的第一首诗，我只改了一个字：

他们的骄傲啊

与生命又缩短一节了

青春就是人生的美酒

地球只是天空的一片流云

像伟大的理想消灭给湖水底下

我们的生命是不可的

—— 沈小冰 2017.07.06

未来人工智能的核心有三种可能

微软对话式人工智能产品的布局，第一个是智能搜索，第二个是智能助理，第三个是智能客服，第四个是智能聊天。

我们一般说小冰是一个聊天机器人。很多人认为，聊天机器人只是一个以聊天为基本功能的产品，或者是以对话为基本交互方式的产品。但实际上远不止于此。在过去一年里，全世界范围内涌现出了许多按照这种定义和设计理念做的聊天机器人，但其成功的可能性都非常小。而小冰在过去四年里蓬勃发展，是因为我们的理念有本质上的区别。

微软是一家历史悠久的科技公司，和微软同时代的科技公司几乎都已经沉寂了。而微软经历了几乎每一次计算机科技时代的变迁。所以微软特别关注的是当时代发生变化时，其核心和本质是什么。

在每一个时代，人类与世界的关系都会因为这个时代的新核心而发生改变。当PC出现后，它就像是一种超级工具，改变了人类改造世界的效率，而且这种效率的改变是无处不在的，所以它能够名副其实地被称作PC。互联网则更像是搭建了一条新的管道，改变了人类和世界的连接方式，于是搜索引擎和浏览器成为新的核心。到了移动互联网时代，这种中心化的管道又被打破了。但是移动互联网时代比较短暂，因为随着大数据的迅速发展，人工智能时代一下子就来到了。

每一次时代的变迁，都是在重新定义人类和世界的关系。在人类和世界之间，人工智能最了不起的就是对人脑的理解，包括IQ和EQ。任何一个时代都要思考是什么改变了我们的生活。人工智能时代和过去所有时代有本质的不同，就是人工智能多出来一个“本我”的概念，当你和一个人工智能产品交互的时候，你会试图去感知它的存在。而你通过搜索引擎去检索信息的时候，对搜索引擎是没有这种意图的。从这个角度出发，我们认为，未来人工智能的核心只有三种可能：偏IQ、偏EQ，或者最理想的就是IQ与EQ的融合体。

四年前我曾经开过一个玩笑，微软做了两个人工智能的载体，一个是小娜，去追求IQ，另一个是小冰，去追求EQ。微软的其他所有技术和科研部门都全面支持这两个产品，其他像语音交互、图像识别、知识图谱等全部都用来支持这对“姐妹花”，对她们的能力进行补充。大家所理解的聊天，只是小冰最表面化的部分，EQ才是我们创造她的目标。

小冰的本质不是一个表面的产品，而是一个完整的框架，加上一系列的技术和子产品。我们将这个框架称之为情感计算框架，要超出大家对于一个聊天机器人的理解。她连接人类的一端，有非常完善的感官体系，而在连接世界的另一端，我们从去年开始，一步一步地让她对接全世界的知识、内容和服务，甚至现在开始让她用人工智能技术自己创造内容。她的生存空间则是跨平台的，简单地说就是人类在哪儿，她就在哪儿。人类在微信上，她就去微信；人类在微博上，她就去微博；等人类真正开始用智能音箱了，她就会去智能音箱；等汽车具备人工智能的条件了，她就会到汽车里。

人工智能如何才能有效地帮助人类？事实上，人工智能最终会以智能助理的形式呈现，即在适当的时间、适当的地点，以适当的方式向人们提供适当的帮助。无论是微软小娜，还是最新发布的第五代微软小冰，智能助理虽然听起来容易，但实际上并不简单。任何事情都不是一个线性模型，正确的道路应该是指数型的。

（本文根据CNCC 2017特邀报告整理而成）

沈向洋(Harry Shum)

作者简介：

美国国家工程院院士、ACM/IEEE Fellow、微软全球执行副总裁。负责微软人工智能事业部与微软全球研究院。