斯坦福发布首份 AI Index 报告，AI 研究者不再茫然

前不久斯坦福大学计算机科学教授，前谷歌首席科学家 Yoav Shoham 来到中国做了场《人工智能的过去、现在和未来》的报告，对人工智能的发展历史、现在所面临的困境以及如何克服这些困境做了非常精彩的分享，此外还重点讲述了他一年来主导的AI Index（see https://aiindex.org/）。

「AI Index」是什么？

这要从 2014 年说起，当时斯坦福大学决定启动一个叫做「AI100」的项目－人工智能百年研究。其目标简单来说就是持续地去调查、总结人工智能未来 100 年在学术研究、经济、道德伦理、法律等方面的进展和对此的展望。

在去年 9 月份，「AI100」专家小组推出了第一份《斯坦福人工智能百年研究：2030 年的人工智能与人类生活》的报告。

但是「AI 100」每五年才会推出一份报告，不能及时跟踪 AI 的发展。于是在2016 年Yoav Shoham 退出了「AI100」的领导小组，并和几位同仁一起，开发旨在及时跟踪并反映人工智能当前发展现状的一个指标体系——AI Index。

正如这份AI Index报告中所说：

AI 领域在迅猛地发展，即使是专家也很难理解和跟踪整个领域的进展。没有相关合理的数据来呈现 AI 技术的现状，那么我们做与 AI 相关的决策其实就像是在「flying blind」。

而现在，我们真的在「flying blind」！

Yoav Shoham 教授希望能通过开放的、基于数据的公益AI Index 报告给各个领域的 AI 研究人员提供导航，让他们不再茫然。这个报告有几个特点，如下：

这是一个年报；

它所使用的所有数据都是公开的，且欢迎所有人提供新的数据；

This is just a beginning. Yoav 呼吁更多人加入，来共同改进 AI Index。

简单来说，《AI Index》年报大致有两块：

1. 数据章节：调查图表，并简要说明遗漏了哪些东西，以及附录的获取和处理数据的方法；

2. 讨论章节：前面的图表太冰冷，各位领域大牛（例如吴恩达）来温暖解读。

数据章节

一、活动体量——该领域的「how much」

1、学术

AI Index 从三个方面考量人工智能研究的发展：论文数量、高校招生情况以及AI会议参会人数的变化。

（1）发表论文数量

可以看到，从 1996 年到现在，AI相关的论文数量增长了近 9 倍！9倍是什么概念呢？或许对比一下更有感觉——

对比从 1996 年到现在所有论文、CS 领域论文和 AI 领域论文，增长比例分别为 2 倍、6 倍和 9 倍。通过仔细地观察图标就会发现，CS 论文数量在 04 年到 09 年有一个很快速的增长，而 AI 领域论文数量也随之开始急速增长，这说明 AI 的蓬勃发展是由 CS 其他领域的研究所驱动的。

（2）招生数量

限于数据的原因，AI Index只收集了斯坦福、伯克利、佐治亚大学、伊利诺伊大学香槟分校、华盛顿大学、卡内基·梅隆大学的招生情况。

斯坦福大学从1990年开始招收 ML、AI 的学生，我们看到ML的招生人数在2000年前一直都非常少，但从2006年之后则开始迅速增长。

而招收学习AI的学生数在90年代经历了一次涨幅之后跌落到了冰点。从 1996 年的冰点开始招生人数只是缓慢增长，但是在2006年后招生人数出现了迅猛增长，2017年的人数是1996年的 11 倍之多。

对比一下在AI方向几所高校的招生情况，可以看到伯克利在这方面似乎更有热情一些，而其他几所学校就稍微比较缓慢了一些。在机器学习ML方面，斯坦福大学则较为活跃。另一个值得注意的是，CMU 从 2012 年才开始有 ML 这门专业，却发展迅速。

（3）参会人数

下面是在2016 年参会人数超过一千人的大会。这种整体「碗底形」的数据表也说明人们的注意力逐渐由符号推理转向了机器学习和深度学习，真所谓「三十年河东，三十年河西」。今年的NIPS会议的参会人数高达8000多人。

当然，仍有一小群人在 AI 中稳步地推进符号推理方法的研究。总有一部分人的学术研究不是跟风的。

2、产业

（1）AI 相关的初创公司

直到2000 年之后，AI初创公司才开始多了起来，尤其是在 2006 年之后，美国的AI初创公司数量开始呈指数增长，2016 年的 AI 公司数量是 2000年的 14 倍之多。

（2）AI 相关的基金

投向美国 AI 初创公司的资金从2012年之后才开始注意到人工智能，大量地投资。对比一下 2000 年，2016年的总量是其 6 倍。

（3）职位空缺

数据主要来源于两个网站 Indeed.com 和 Monster.com。从2013年开始，美国从 2013 年到现在要求有 AI 技能的工作增长了 4.5 倍。

不同国家的 AI 相关职位空缺增长情况也不一样，加拿大和英国在这两年增长非常迅速，但它们的绝对数量只有美国的5% 和 27%。

在特定领域，可以看出有 ML 相关经验的工作显得更多，空缺量两年时间增长了近10 K。而对深度学习有要求的工作在今年也成倍增长。

（4）机器人影响

北美和全球范围内，工业机器人装置的货运数量在 2009 年之后增长了近 20万。

北美和全球范围内，对工业机器人的需求也在高速增长。可以看出从 2009 年之后，工业机器人货运数量急剧增长。

3、开源软件——Github 项目统计

Github 上对Tensor Fow（深度学习软件包）的关注度远多于其他机器学习工具。

来张集体照，Tensorflow简直是「遥遥领先」。

4、公众兴趣——媒体报道情绪

包含「Artificial Intelligence」词项的媒体文章数量：积极和消极。可以看出积极占大部分，尤其是进入 2017 年以后。

二、技术表现——该领域的「how good」

1、视觉——物体检测

从 2010 年 28.5% 的误差率迅速降低到 2017 年的 2.5%，甚至超过了人类的表现。

2、视觉——视觉问答

对一个图片问题的开放式回答任务中 AI 系统的表现。嗯，离人类表现差的还远。

3、自然语言处理——Parsing

AI 系统在检测语句语法结构任务中的表现在近十年的时间里似乎并没有太多的改变。

4、机器翻译

AI 系统在英-德之间新闻翻译任务中的表现在2015年之后有一次大的提升。注意之所以会出现下降，是因为翻译系统在不同的任务中会有不同的表现能力。

5、问答

AI 系统在从文件中给问题找答案任务中的表现也像翻译系统一样，在2015年有一次大的提升，但是随后则较为缓慢。

6、语音识别

AI 系统在识别手机电话中语音任务中的表现在进入今年以后逐渐逼近甚至超越人类水平。

7、理论证明

自动定理证明的一大组定理证明问题的平均易处理性。易处理性有下降是因为不同的理论可能只擅长特定的问题。

8、SAT Solving

在工业应用问题上 SAT（学术能力测验）方案解决问题的比率，从2009年已经能够达到及格水平，但近十年并没有很大的提升。

三、衍生测量——多方数据交叉比较

1、学术-工业

数据显示学术活动（论文发表和招生数量）驱动了AI工业界的发展。在 2010 年，投资者开始注意到 AI 的发展，到 2013 年投资开始急剧增长。

2、AI 活力指数

AI 活力指数汇总了来自学术界和产业界的结果（论文出版，招生数量和投资），以量化 AI 作为一个领域的活力。为了计算 AI 活力指数，我们对以上三个因素求了平均。

这只是一个简单的计算，Yoav 教授等人希望通过这个简单的调查，能够引发人们对如何更准确地分析 AI 指数产生兴趣，并能够探讨出一个经得起时间考验的方案来。

四、接近人类水平的性能

把 AI 系统和人类对比，这几乎是自然而然的事情。显然在某些任务中，例如计算能力，AI远远优于人类。但在处理复杂任务（例如问答、游戏、医学诊断等）时， AI 系统就比较难以评估了。

AI 系统往往是针对狭窄的背景设计的，所以它在某一个特定任务中可能会表现出卓越的性能；但是如果稍微地修改一下任务，AI 系统的性能可能就会大大降低，而人类则完全不同。

不过虽然拿人类和 AI 系统进行比较有点困难，但是在某些方面，这类比较还是非常有意思的。例如下面罗列的这些里程碑：

1980 年，黑白棋

在 20 世纪 80 年代，李开复和 Sanjoy Mahajan 开发了 BILL，这是一个用语玩「黑白棋」游戏的贝叶斯学习系统。1989 年这个程序赢得了美国电脑玩家的全国锦标赛，并以 56-8 的成绩击败了排名最高的美国选手 Brian Rose。在 1997 年，一个名为 Logistello 的程序在对阵黑白棋世界冠军的比赛中六场全胜。

1995 年，跳棋

1952 年，亚瑟·塞缪尔（Arthur Samuels）制作了一系列玩跳棋的程序，并通过自我学习进行改进。然而直到 1995 年，一个名为 Chinook 的跳棋程序才击败了世界冠军。

1997 年，国际象棋

在 20 世纪 50 年代就有一些计算机科学家语言计算机将在 1967 年击败人类国际象棋冠军。但直到 1997 年，IBM 的 DeepBlue 系统才击败了国际象棋冠军加里·卡斯帕罗夫（Gary Kasparov）。今天你可以在智能手机上运行的国际象棋与大师级的程序进行玩。

2011年，Jeopardy！

在 2011 年，IBM 的 Watson 计算机系统参加了热门的智力竞赛节目 Jeopardy！对抗前赢家 Brad Rutter 和 Ken Jennings。最终，Watson 赢得了 100 万美元的第一名。

2015 年，Atari 游戏

2015 年，Google DeepMind 的一个团队使用强化学习系统来学习如何玩 49 个 Atari 游戏。这个系统可以在大部分游戏中达到人类级别的表现（例如突出重围），尽管有些仍然显得遥不可及（例如蒙特祖玛的复仇）。

2016 年，ImageNet 中的对象检测

在 2016 年 ImageNet 自动标注的误差率从 2010 年的 28.5% 降到低于 3%，而人类的误差则是 5%。

2016 年，围棋

2016 年 3 月，Google DeepMind 团队开发的 AlphaGo 系统击败了世界围棋高手李世石，4-1。在 2017 年 3 月，DeepMind 发布的 AlphaGo Master，又打败世界排名第一的围棋大师柯洁。在 2017 年 10 月份，《自然》期刊上发表了另一个新版本的 AlphaGo Zero，以 100-0 的比分完败之前的 AlphaGo。

2017 年，皮肤癌分类

在 2017 年《Nature》上的一篇文章中，Esteva 等人描述了一个 AI 系统，他们用一组包含了 2094 中不同疾病的 129450 张临床图像的数据集训练了这个系统，随后将它与 21 位认证皮肤科专家的诊断性能进行比较，发现 AI 系统在对皮肤癌的分类上媲美皮肤科专家。

2017 年，语音识别

2017 年，微软和 IBM 分别实现了可以媲美于人类的语音识别能力。

2017 年，扑克

2017 年 1 月，来自 CMU 的一个名为 Libratus 的程序在一个有 12 万长比赛的锦标赛中击败了四位顶级的人类玩家。

2017 年 2 月，来自 Alberta 大学的一个名为 DeepStack 程序在 3000+场游戏中击败了 11 名专业选手。

2017 年，Ms.Pac - Man

微软收购的深度学习团队 Maluuba 开发了一个 AI 系统，在 Atari 2600 上学到了如何达到游戏的最高分 999,900。

五、遗漏了什么？

前面的内容覆盖了很多，但很显然并没有包含 AI 的全部，这个报告还有很多有待改进的地方。

1、技术表现

这个报告有很多重要的技术领域并没有覆盖到，有些领域还没有明确的标准化基准（如对话系统、pllanning、机器人的连续控制）。在其他一些领域，还没有显著的进步，例如常识推理，所以很难进行技术表现的评估。第三，有一些领域还没来得及收集相关的数据（例如推荐系统、标准化测试）。

2、国际化

这份报告目前主要还是以美国为中心，而我们知道中国在 AI 方面的研究和投资也是极为活跃的。之所以没有覆盖的中国，主要原因是 Yoav 等人还没拿到中国 AI 相关的数据。未来可能会得到完善。

3、多样性和包容性

那些研究和开发人工智能系统的学者和工程师们，对于人工智能对社会的影响起着重要作用。AI Index报告中应该量化参与人工智能的交流的人群，并衡量他们对于未来人工智能研究和开发的影响力。

4、政府和法人投资

本报告展示的风险投资数据仅限于美国，仅能代表人工智能研发（R＆D）投资总额的一小部分。政府和企业在 AI 研发上其实已经投入大量的资金，这些数据可能很难收集，需要更多合作。

5、特定垂直领域的影响

报告还缺少 AI 在医疗保健、汽车、金融、教育等领域的相关指标。这些领域可能是最重要也最难处理的，因为相关指标很难被识别和聚合，需要对其领域有深入了解的专家人士来完成。Yoav 教授的小组也期待有这些领域的专家能够与他们合作，共同完善AI Idex。

此外，这份报告也没有讨论种族、性别等方面的调查。

6、社会影响

这份报告尚无关于 AI 造成社会风险问题的分析。在随后的报告中，Yoav 教授希望能够提供关于 AI 安全性、可预测性、AI算法的公平性、AI时代的隐私、道德影响以及其他主题的讨论。

以上问题这么多，主要原因还是：缺人、缺数据！所以 Yoav小组迫切地希望有人能够加入他们，共同完善 AI Index，为 AI发展提供准确及时的趋势报告。

专家论坛

数据总是冰冷的且不完整的，它只能描绘过去，却无法告诉人们现在和未来。AI Index 独创性地在报告中加入一系列跨学术界、产业界、政府和媒体的 AI 专家的观点，让人们对 AI 的现在和未来有一个生动的认识。

如何参与

需要再次重点强调的是，这份 AI Index 还很不完善，而另一方面，这是一个开放的报告，任何人都可以加入这个社区，共同完成更有影响力的 AI Index。

－本文来自AI科技评论