拒绝boring，炫酷潮AI竞赛来袭！

韩梅梅

听说，上周AI界发生了一件大事？

李雷

对，李开复、王小川、张一鸣组了一个AI Challenger全球AI挑战赛，吸引了65个国家，1万多AI界武林高手参与。

韩梅梅

来打架了？

李雷

人家是竞技，不是打架。在视觉和翻译两大领域，分出人体骨骼关键点检测、图像中文描述、场景分类、英中机器文本翻译和英中机器同声传译五个赛道，展开激烈较量。

韩梅梅

听不懂。

李雷

ok，给你科普下，先来看一段热舞视频。

看透你，管你是哆啦A梦还是恐怖分子

人体骨骼关键点检测

人体骨骼关键点检测？乍一听，还以为和医学有关，实际上不是这样。

简单来说，该技术是让计算机学会从海量的图片中，完整识别人体骨骼的14个关键点，描述出人体的基本框架。

14个关键点包括：头顶，脖子，左右肩关节，左右肘关节，左右腕关节，左右髋关节，左右膝关节，左右踝关节。

人体骨骼关键点检测在实际生活中有多项应用，比如体感游戏、无人驾驶、安防等。

例如，通过对路边行人的实时监测，无人驾驶汽车可以准确捕捉行人的运动姿态，预估他下一个动作，是站在路边聊天，是准备过马路，还是准备跑步闯红灯。无人驾驶汽车据此做出实时反应，避免危险发生。

在安防应用中，利用该技术，机器可以不通过面部长相，单凭人体走路的姿势就能预测其身份，在茫茫人海中，快速锁定恐怖分子。

所以，不管是哆啦A梦掏法宝的姿势，还是恐怖分子掏枪的姿势，机器都能够准确识别！

本项比赛，主办方开放了一个30万张图片数据集，包含了超过100种复杂生活场景内的实际人物动作与姿态，标注人物个数达到60万量级。

这是目前全球规模最大的数据集。对比一下，另一项国际计算机视觉领域最受关注和最权威的比赛MS COCO的标注人数仅为10万人。

机器达到大学生同等文化水平

图像中文描述

图像中文描述比赛，要求参赛者让机器学会看图说话，一句话点明图像中的重要信息，人物、场景、动作等内容，即要符合自然语言习惯。

我们为选手提供了一个庞大的数据集，选手据此做训练，生成了一个提炼Topic关键词的算法，根据关键词重新组合后的描述。

比如下面这张PPT是一个获奖团队的作品，三张图片下面各有两句描述。可以明显的看到，经过优化后的第二句，要比第一句准确很多。

图像中文描述赛道选手提交案例

Topic 1：玉米、玉米堆、堆旁、生机勃勃。

优化前：院子里有两个穿着各异的人在做食物。（不够准确）

优化后：室外一个拿着玉米的女孩前面有一个坐在玉米堆上的男人在干活。（比较准确）

Topic 2：系鞋带、休息区、穿鞋。

优化前：窗台的石台上坐着一位穿着短裙的女士。（明显错误）

优化后：一个穿着灰色裤子的女人在道路上系鞋带。（相当准确）

目前，国内外图像描述的数据集主要是英语（例如MSCOCO数据集），还没有相应的用于中文描述的图片数据集，但中文描述通常在句法、词法上灵活度较大，英语描述算法未必适用。

数据不好，就会影响牛逼技术的产生。为了准备一个高质量的数据集，主办方共动用了250人的团队，其中200人标注，50人检查，共历时7个多月。5人独立描述1张图片，以此保证描述的多样性。

正如AI Challenger执行委员王咏刚所期待的那样：倾力投入，从无到有打造一个中文世界的数据集和竞赛，让更多人才和AI交流愈加活跃起来。

最终，主办方打造了一个30万张图片的数据集，共有150万句中文描述，超过100种复杂生活场景。该数据集在训练场景复杂度、人物动作复杂度、身体遮挡情况都远高于现有的其他数据集，并创新性地引入了形容词和中文成语，大大提升了描述语句的丰富度。

最终的评比显示，训练成果基本能达到与大学生同等的文化水平。对同一张图，机器能给出多种准确的表达方式。

图像中文描述赛道选手提交案例

实际生活中，这项研究的成果，可以被直接应用于图像理解、机器人视觉、盲人辅助等领域。

另外，它还能进一步丰富和完善搜索方式。

目前的图片搜索，计算机只能通过筛选网络上的相关关键词来确定所需图片，准确率不高。而有了精确的机器描述，计算机能真正理解图片中的内容，更精准的提供信息，让用户不必再为图文不一致的搜索结果降低效率而烦恼抓狂。

有了TA，去火星交流都不怕

同声传译

口语与书面语的差异大，比如无标点、无断句、口语化，甚至夹杂语气词，这些问题给机器同声传译带来了极大的干扰。

英中机器同声传译赛道选手提交范例

为了解决这个问题，选手首先需要设计多种策略，将语音识别后的文本，处理为可用于翻译的文本，然后翻译成目标语言。

比如上图，原文没有任何标点，断句不清晰，且存在大小写误判。机器需要先断句，加上标点，然后再翻译成中文。可以明显的看到，断句后的翻译效果，在句式的复杂度和句意的准确度上都要比之前好。

英中机器同声传译赛道选手提交范例

这项比赛，主办方提供了1000万句对的口语训练数据，并尽可能做了优化处理，全部经过译员检查和矫正，句正确率在97%以上，英中双语句式对照工整、质量高、噪音低。

英中机器同声传译赛道选手提交范例

自动记录每一刻的小美好

场景分类

场景分类竞赛的趣味性很强，一共吸引了453支团队参赛，是各赛道中参与人数最多的。

该赛道要求参赛者根据图像内容，为它赋予一个语义类别，比如草地、宫殿、酒吧、沙漠等。

场景分类是图像检索、图像内容分析和目标识别等问题的基础。但由于图片的尺度、角度、光照等诸多因素的带来的复杂性，场景分类一直是计算机视觉中的棘手问题。

主办方从400万张互联网图片中精选出了8万张，分属于80个日常场景类别，例如航站楼、足球场。每个场景类别包含600-1100张图片，供参赛选手训练。让他们以此集建立算法，预测每张图片所属的场景类别。

这项技术的应用之一，是把各种不同场景不同类别、堆得比山高比海深的图片，自动归类，节省人工检索的时间。

“AI Challenger全球AI挑战赛”背景介绍：

“AI Challenger全球AI挑战赛”是由创新工场、搜狗、今日头条联合发起的竞赛活动，面向全球人工智能领域科研人才，致力于打造大型、全面的科研数据集与世界级竞赛平台。

首届“AI Challenger”全球AI挑战赛回顾

2017年首届AI Challenger有视觉和翻译两大类共五个赛道，分别是人体骨骼关键点检测、图像中文描述、场景分类、英中机器文本翻译和英中机器同声传译。

主办方为首届竞赛奖金提供了200万元人民币，公开了超过1000万条中英文翻译数据、60万个人体动作分析标注数据、30万张图片场景标注和语义描述数据公开。这是国内迄今公开的规模最大的科研数据集。

未来三年，“AI Challenger ”将持续投入千万基金，建设更大规模的AI前沿领域高质量数据集，还会主办世界级的AI竞赛，将AI Challenger打造成具有全球影响力的竞赛平台。

创新工场董事长兼CEO、人工智能工程院院长李开复说，“我最大的希望就是，未来三年，AI Challenger能消除中美年轻顶尖人才之间的差距。从我们这里走出去的优秀选手，最终能成长为中国乃至世界AI产业的领军人物。”