车品觉:人工智能快速增长的两个动因

时间:2022-04-23
本文章向大家介绍车品觉:人工智能快速增长的两个动因,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

使得人工智能快速成长的力量来自哪里?来自以下这么几个方面:机器学习提高了预测的精度,大型的数据集驱动有更多的新型的智能应用,整个运算的机器从GPU到了TPU,强大的云计算的基础建设,更低廉的存储,以及开源的人工智能跟数据处理的中间件不断的发生……这些都是人工智能之所以在这几年里面能够这么快的发展的力量。

而在人工智能的快速发展中最重要的成绩是什么呢?是把错误率减低,特别是图像跟语音。现在你 Chatbot 这种功能就是对语音的识别,语音的解释比以前快很多了。

首先是机器学习带来的贡献。2011 年是人工智能快速发展的一个里程碑。实际上,2011 年的时候 ImageNet 在图像识别挑战中的错误率高达 25%,而在 2015 年的时候降低到 4%,已经低于人类的错误水平(5%)了。机器能识别的单词,数量和准确率同时在提高,并且识别的文字更多,准确率会更高。

所以,现在我们才有机会仅仅从一张图片就可以解读这个图片里面人物的愤怒情绪。

但是同时,数据也成为了另一个快速增长的力量。这个力量更多地来自我们以前都不叫“数据”的东西——我们现在把这种东西叫数据——包括我们移动的轨迹、社交的数据、视频图像等等。让这种数据变得更准、更细、更全、更稳、更快,要有非常多的技术在里面去做加工,才能产生一种洞察力。

这两种力量其实同时在 2014 年里不断增长,更多精确的机器学习,更多的数据,更好的人工智能的驱动力。

这两者共同作用,让生成洞察力像拼图一样。在拼图刚开始的时候,肯定不是看得很清楚全貌;但拼了 10%、20% 的时候,基本上已经能猜到这个拼图的后面到底是什么。如果我们把这个拼图用一个金字塔来比喻,你会发现,以往来讲,我们还停留在只知道一个人的姓名、地址、邮箱等阶段;但是随着不同的数据的加入,整个金字塔就会变成一个不一样的数据集,对于人的描述就更加清晰。

那么,如何实现洞察力?需要人工智能和数据的同时实现。人工智能实现策略和得到数据的路径是两组必须的策略,并且这两组策略相互作用。人工智能是数据的“用”,这得到数据是数据的“养”。

人工智能的实践的路径,其实也可以说是人工智能产品化的一种方法。

第一,针对一个定义很清晰的问题来找训练参照模型。因为如果我们对一个问题的定义不清楚,其实你是很难寻找参照的模型训练,所以你必须要清楚知道自己定义的问题。

第二,从这个问题里面做出一个最小化的核心产品 (MVP,最小可行产品),精度为 85% 到 95%。但是同时我们要确立一个有容错的用户体验,来对应剩下没有解决的部分。

其实每一个数据产品必然会经历这样一个过程,所以我们的机会点是来自我们有没有办法用数据能让一个 MVP 的产品解决定义的问题;同时,我们要用有的用户体验应对极端情况。

第三,在循环里面,我们必须要让操作员和用户能参与,操作员填写电脑不能选自动完成的部分,以后用户也可以提供更好的训练数据。

第四,在定制化的同时要决定如何迅速地、便捷地在用户中间里面规模化地去扩展。

第五,在这个地方对商业化的模型、营销策略进行批判性的思维,人工智能作为一项独立技术可以大胆地成为开源项目或咨询业务。

那么如何得到适合的数据呢?首先,根据定义的问题制定数据的需求地图,盘点自己的一方数据,关注数据的缺失,建立一个增强数据的策略,主动对公开共享的数据源进行缺失补充,与愿意共享相关数据的企业作战略合作,采用学习循环,激励用户/合作方提供数据。

我们知道了用户行为,知道如何收集数据,把任务定义好之后,就可以做决策行动,这样的东西实际上是一个数据的闭环,也叫数据引擎。

但是要知道,在明确的任务里面,我们会看见有时候数据是集中的,有时候是分散的,但是在不明确的任务里,实际上数据是比较难找到的。所以任务定义和数据都非常重要,就是说定义问题这里很重要,要尽量的小而精准,不能大。而且我们要把它做成一个循环,用户能参与。

然后我们会发现,中间要把这个数据能做好的其实有很多关键的领域,这就是一些基础的功能,包括数据的质量、安全权限、平台运维、研发工具、数据模型,还有存储的治理,就是把之前提到的东西都落地了,而不仅仅只是一个项目。很多公司在这一块是空白的,或者是他们是没有一个统一的顶层设计来做这个事情,都是没有一块补一块,没有一块补一块,不成系统。

所以人们常说的数据治理,不是完全只是字面“数据的治理”这么简单,而是说有没有足够的工具可以把这东西放在一起,而不是分开,这个是一个比较关键的点。

如果要把这本书里面讲两个重要的关键词的话,一个是叫趋向于完美数据,一个叫数据引擎。

什么意思呢?趋向于完美数据就是说以往没有这么多数据的积累,当有某一个行业领域的数据积累的足够的时候,它将会产生非常多的创新,这是从数据出发的。

另外一个关键词就是数据引擎。数据引擎就是怎么把现在想要做的东西放在这个框架下,而数据跟这个应用转动得非常紧密,而且是没有太多的断点在里面的时候,数据引擎就出现了。应用驱动更多的数据,数据让应用更好这个循环,不断地增加,不断地扩大时,你会发现中间原来很多的断点就没有了。

举个例子,所谓的断点就是比如现在我给你一个报告,拿了报告之后,你就你去做一个决定,但你的决定跟我的报告本身没什么关系,在这种情况下,这个关系本身,这个数据是不可追溯的,到底报告为了整个场景贡献了什么,是不清楚的。

数据产生应用,应用驱动更多的数据,数据让应用更好的循环,二者有机结合,才能得到更好的数据。