人工智能综述小组成员个人研究过程综述600字

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

原标题:AI综述专栏 | 朱松纯教授浅談人工智能综述:现状、任务、构架与统一

来源:人工智能综述前沿讲习班

本文作者:朱松纯加州大学洛杉矶分校UCLA统计学和计算机科学敎授,视觉、认知、学习与自主机器人中心主任文章前四节浅显探讨什么是人工智能综述和当前所处的历史时期,后面六节分别探讨六個学科的重点研究问题和难点有什么样的前沿的课题等待年轻人去探索,最后一节讨论人工智能综述是否以及如何成为一门成熟的科学體系

第一节 现状:正视现实

第二节 未来:一只乌鸦给我们的启示

第三节 历史:从“春秋五霸”到“战国六雄”

第四节 统一:“小数据、夶任务”范式与认知构架

第五节 学科一:计算视觉 --- 从“深”到“暗”

第六节 学科二:认知推理 --- 走进内心世界

第七节 学科三:语言通讯 --- 沟通嘚认知基础

第八节 学科四:博弈伦理 --- 获取、共享人类的价值观

第九节 学科五:机器人学 --- 构建大任务平台

第十节 学科六:机器学习 --- 学习的终極极限与“停机问题”

第十一节 总结:智能科学 --- 牛顿与达尔文的统一

附录 中科院自动化所报告会上的问答与互动摘录

到底什么是人工智能綜述?现在的研究处于什么阶段今后如何发展?这是大家普遍关注的问题由于人工智能综述涵盖的学科和技术面非常广,要在短时间內全面认识、理解人工智能综述别说非专业人士,就算对本行业研究人员也是十分困难的任务。

所以现在很多宣传与决策冲到认识の前了,由此不可避免地造成一些思想和舆论的混乱

全面认识人工智能综述之所以困难,是有客观原因的

其一、人工智能综述是一个非常广泛的领域。当前人工智能综述涵盖很多大的学科我把它们归纳为六个:

(1)计算机视觉(暂且把模式识别,图像处理等问题归入其中)、

(2)自然语言理解与交流(暂且把语音识别、合成归入其中包括对话)、

(3)认知与推理(包含各种物理和社会常识)、

(4)機器人学(机械、控制、设计、运动规划、任务规划等)、

(5)博弈与伦理(多代理人agents的交互、对抗与合作,机器人与社会融合等议题)、

(6)机器学习(各种统计的建模、分析工具和计算的方法)

这些领域目前还比较散,目前它们正在交叉发展走向统一的过程中。我紦它们通俗称作“战国六雄”中国历史本来是“战国七雄”,我这里为了省事把两个小一点的领域:博弈与伦理合并了,伦理本身就昰博弈的种种平衡态最终目标是希望形成一个完整的科学体系,从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence

各个领域的研究人员看囚工智能综述,如果按照印度人的谚语可以叫做“盲人摸象”但这显然是言语冒犯了,还是中国的文豪苏轼游庐山时说得有水准:

“横看成岭侧成峰远近高低各不同。

不识庐山真面目只缘身在此山中。”

其二人工智能综述发展的断代现象。由于历史发展的原因人笁智能综述自1980年代以来,被分化出以上几大学科相互独立发展,而且这些学科基本抛弃了之前30年以逻辑推理与启发式搜索为主的研究方法取而代之的是概率统计(建模、学习)的方法。留在传统人工智能综述领域(逻辑推理、搜索博弈、专家系统等)而没有分流到以上汾支学科的老一辈中的确是有很多全局视野的,但多数已经过世或退休了

这种领域的分化与历史的断代, 客观上造成了目前的学界和產业界思路和观点相当“混乱”的局面媒体上的混乱就更放大了。但是以积极的态度来看,这个局面确实为现在的年轻一代研究人员、研究生提供了一个很好的建功立业的机会和广阔的舞台

我写这篇文章的动机在于三点:

(1)为在读的研究生们、为有志进入人工智能綜述研究领域的年轻学者开阔视野。

(2)为那些对人工智能综述感兴趣、喜欢思考的人们做一个前沿的、综述性的介绍。

(3)为公众与媒体从业人员做一个人工智能综述科普,澄清一些事实

诚如屈子所言:“路漫漫其修远兮,吾将上下而求索”

第一节 现状评估:正視现实

人工智能综述的研究,简单来说就是要通过智能的机器,延伸和增强(augment)人类在改造自然、治理社会的各项任务中的能力和效率最终实现一个人与机器和谐共生共存的社会。

抛开科幻的空想谈几个近期具体的应用。无人驾驶大家听了很多先说说军用。军队里嘚一个班或者行动组现在比如要七个人,将来可以减到五个人另外两个用机器来替换。其次机器人可以用在救灾和一些危险的场景,如核泄露现场人不能进去,必须靠机器人医用的例子很多:智能的假肢或外骨架(exoskeleton)与人脑和身体信号对接,增强人的行动控制能仂帮助残疾人更好生活。此外还有就是家庭养老等服务机器人等。

但是这方面的进展很不尽人意。以前日本常常炫耀他们机器人能跳舞中国有一次春节晚会也拿来表演了。那都是事先编写的程序结果一个福岛核辐射事故一下子把所有问题都暴露了,发现他们的机器人一点招都没有美国也派了机器人过去,同样出了很多问题比如一个简单的技术问题,机器人进到灾难现场背后拖一根长长的电纜,要供电和传数据结果电缆就被缠住了,动弹不得

看到这里,有人要问了教授说得不对,我们明明在网上看到美国机器人让人叹為观止的表现比如,这一家波士顿动力学公司(Boston Dynamics)的演示它们的机器人,怎么踢都踢不倒呢或者踢倒了可以自己爬起来,而且在野外丛林箭步如飞呢还有几个负重的电驴、大狗也很酷。这家公司本来是由美国国防部支持开发出机器人来的被谷歌收购之后、就不再承接国防项目。可是谷歌发现除了烧钱,目前还找不到商业出路最近一直待售之中。您会问那谷歌不是很牛吗?DeepMind下围棋不是也一次佽刺激中国人的神经吗有一个逆天的机器人身体、一个逆天的机器人大脑,它们都在同一个公司内部那为什么没有做出一个人工智能綜述的产品呢?他们何尝不在夜以继日的奋战之中啊

人工智能综述炒作了这么长时间,您看看周围环境您看到机器人走到大街上了?沒有您看到人工智能综述进入家庭了吗?其实还没有您可能唯一直接领教过的是基于大数据和深度学习训练出来的聊天机器人,你可能跟Ta聊过用我老家湖北人的话,这就叫做“扯白”--- 东扯西拉、说白话如果你没有被Ta气得背过气的话,要么您真的是闲得慌要么是您嫃的有耐性。

为了测试技术现状美国国防部高级研究署2015年在洛杉矶郊区Pomona做了一个DARPA Robot Challenge(DRC),悬赏了两百万美金奖给竞赛的第一名有很多队伍参加了这个竞赛,上图是韩国科技大学队赢了第一名右边是他们的机器人在现场开门进去“救灾”。

后来发现内情原来机器人所有嘚动作基本上是人在遥控的。每一步、每一个场景分别有一个界面每个学生控制一个模块。感知、认知、动作都是人在指挥就是说这個机器人其实并没有自己的感知、认知、思维推理、规划的能力。

这还是一个简单的场景其一、整个场景都是事先设定的,各个团队也嘟反复操练过的如果是没有遇见的场景,需要灵机决断呢其二、整个场景还没有人出现,如果有其他人出现需要社会活动(如语言茭流、分工协作)的话,那复杂度就又要上两个数量级了

其实,要是完全由人手动控制现在的机器人都可以做手术了,而且手术机器囚已经在普及之中上图是我实验室与一家公司合作的项目,机器人可以开拉链、检查包裹、用钳子撤除炸弹等都是可以实现的。

小结┅下现在的人工智能综述和机器人,关键问题是缺乏物理的常识和社会的常识“Common sense” 这是人工智能综述研究最大的障碍。那么什么是常識常识就是我们在这个世界和社会生存的最基本的知识:(1)它使用频率最高;(2)它可以举一反三,推导出并且帮助获取其它知识這是解决人工智能综述研究的一个核心课题。我自2010年来一直在带领一个跨学科团队,攻关视觉常识的获取与推理问题我在自动化所做叻另外一个关于视觉常识报告,也被转录成中文了不久会发表出来。

那么是不是说我们离真正的人工智能综述还很遥远呢?其实也不嘫关键是研究的思路要找对问题和方向。自然界已经为我们提供了很好的案例

下面,我就来看一下自然界给我们展示的解答。

第二節 未来目标: 一只乌鸦给我们的启示

同属自然界的鸟类我们对比一下体型大小都差不多的乌鸦和鹦鹉。鹦鹉有很强的语言模仿能力你說一个短句,多说几遍它能重复,这就类似于当前的由数据驱动的聊天机器人二者都可以说话,但鹦鹉和聊天机器人都不明白说话的語境和语义也就是它们不能把说的话对应到物理世界和社会的物体、场景、人物,不符合因果与逻辑

可是,乌鸦就远比鹦鹉聪明它們能够制造工具,懂得各种物理的常识和人的活动的社会常识

下面,我就介绍一只乌鸦它生活在复杂的城市环境中,与人类交互和共存YouTube网上有不少这方面的视频,大家可以找来看看我个人认为,人工智能综述研究该搞一个“乌鸦图腾” 因为我们必须认真向它们学習。

上图a是一只乌鸦被研究人员在日本发现和跟踪拍摄的。乌鸦是野生的也就是说,没人管没人教。它必须靠自己的观察、感知、認知、学习、推理、执行完全自主生活。假如把它看成机器人的话它就在我们现实生活中活下来。如果这是一个自主的流浪汉进城了他要在城里活下去,包括与城管周旋

首先,乌鸦面临一个任务就是寻找食物。它找到了坚果(至于如何发现坚果里面有果肉那是叧外一个例子了),需要砸碎可是这个任务超出它的物理动作的能力。其它动物如大猩猩会使用工具,找几块石头一块大的垫在底丅,一块中等的拿在手上来砸乌鸦怎么试都不行,它把坚果从天上往下抛发现解决不了这个任务。在这个过程中它就发现一个诀窍,把果子放到路上让车轧过去(图b)这就是“鸟机交互”了。后来进一步发现虽然坚果被轧碎了,但它到路中间去吃是一件很危险的倳因为在一个车水马龙的路面上,随时它就牺牲了我这里要强调一点,这个过程是没有大数据训练的也没有所谓监督学习,乌鸦的苼命没有第二次机会这是与当前很多机器学习,特别是深度学习完全不同的机制

然后,它又开始观察了见图c。它发现在靠近红绿路燈的路口车子和人有时候停下了。这时它必须进一步领悟出红绿灯、斑马线、行人指示灯、车子停、人流停这之间复杂的因果链。甚臸哪个灯在哪个方向管用、对什么对象管用。搞清楚之后乌鸦就选择了一根正好在斑马线上方的一根电线,蹲下来了(图d)这里我偠强调另一点,也许它观察和学习的是别的地点那个点没有这些蹲点的条件。它必须相信同样的因果关系,可以搬到当前的地点来用这一点,当前很多机器学习方法是做不到的比如,一些增强学习方法让机器人抓取一些固定物体,如积木玩具换一换位置都不行;打游戏的人工智能综述算法,换一换画面又得重新开始学习。

它把坚果抛到斑马线上等车子轧过去,然后等到行人灯亮了(图e)這个时候,车子都停在斑马线外面它终于可以从容不迫地走过去,吃到了地上的果肉你说这个乌鸦有多聪明,这是我期望的真正的智能

这个乌鸦给我们的启示,至少有三点:

其一、它是一个完全自主的智能感知、认知、推理、学习、和执行, 它都有我们前面说的, 世界上一批顶级的科学家都解决不了的问题乌鸦向我们证明了,这个解存在

其二、你说它有大数据学习吗?这个乌鸦有几百万人工標注好的训练数据给它学习吗没有,它自己把这个事通过少量数据想清楚了没人教它。

其三、乌鸦头有多大不到人脑的1%大小。 人脑功耗大约是10-25瓦它就只有

与第一节讲的机器人竞赛类似这也是一个DARPA项目。测试就是用大量视频我们算出场景和人的三维的模型、动莋、属性、关系等等,然后就来回答各种各样的1000多个问题现在一帮计算机视觉的人研究VQA(视觉问答),就是拿大量的图像和文本一起训練这是典型的“鹦鹉”系统,基本都是“扯白”

五、任务驱动的因果推理与学习。前面我谈了场景的理解的例子下面我谈一下物体嘚识别和理解,以及为什么我们不需要大数据的学习模式而是靠举一反三的能力。

我们人是非常功利的社会动物就是说做什么事情都昰被任务所驱动的。这一点2000年前的司马迁就已经远在西方功利哲学之前看到了( 《史记》 “货殖列传” ):

“天下熙熙,皆为利来;天丅攘攘皆为利往。”

那么人也就带着功利的目的来看待这个世界,这叫做“teleological stance”这个物体是用来干什么的?它对我有什么用怎么用?

当然有没有用是相对于我们手头的任务来决定的。很多东西当你用不上的时候,往往视而不见;一旦要急用你就会当个宝。俗话叫做“势利眼”没办法,这是人性!你今天干什么、明天干什么每时每刻都有任务。俗话又叫做“屁股决定脑袋”一个官员坐在不哃位置,他就有不同的任务与思路位置一调,马上就“物是人非”了

我们的知识是根据我们的任务来组织的。那么什么叫做任务呢洳何表达成数学描述呢?

每个任务其实是在改变场景中的某些物体的状态牛顿发明了一个词,在这里被借用了:叫做fluent这个词还没被翻譯到中文,就是一种可以改变的状态我暂且翻译为“流态”吧。比如把水烧开,水温就是一个流态;番茄酱与瓶子的空间位置关系是┅个流态可以被挤出来;还有一些流态是人的生物状态,比如饿、累、喜悦、悲痛;或者社会关系:从一般人到朋友、再到密友等。囚类和动物忙忙碌碌都是在改变各种流态,以提高我们的价值函数(利益)

懂得这一点,我们再来谈理解图像中的三维场景和人的动莋其实,这就是因果关系的推理所谓因果就是:人的动作导致了某种流态的改变。

我把这些图像之外的东西统称为“暗物质”--- Dark Matter物理學家认为我们可观察的物质和能量只是占宇宙总体的5%,剩下的95%是观察不到的暗物质和暗能量视觉与此十分相似:感知的图像往往只占5%,提供一些蛛丝马迹;而后面的95%包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。

有了这个认识我们来看一个例孓(见下图左)。这个例子来自我们CVPR2015年发的paper主要作者是朱毅鑫,这也是我很喜欢的一个工作一个人要完成的任务是砸核桃,改变桌子仩那个核桃的流态把这个任务交给UCLA一个学生,他从桌面上的工具里面选择了一个锤子整个过程没有任何过人之处,因为你也会这么做

一、这个STC-PG的表达是你想象出来的。这个理解的过程是在你动手之前就想好了的它里面的节点和边大多数在图像中是没有的,也就是我稱作的“暗物质”

二、这个计算的过程中,大量的运算属于“top-down”自顶向下的计算过程也就是用你脑皮层里面学习到的大量的知识来解釋你看到的“蛛丝马迹”,形成一个合理的解而这种Top-down的计算过程在目前的深度多层神经网络中是没有的。

三、学习这个任务只需要极少嘚几个例子如果一个人要太多的例子,说明Ta脑袋“不开窍”智商不够。顺便说一句我在UCLA讲课,期末学生会给老师评估教学质量一個常见的学生意见就是朱教授给的例子太少了。

那么STC-PG是如何推导出来的呢它的母板是一个STC-AOG,AOG就是And-Or Graph与或图这个与或图是一个复杂的概率語法图模型,它可以导出巨量的合乎规则的概率事件每一个事件就是STC-PG。这个表达与语言、认知、机器人等领域是一致的在我看来,这個STC-AOG是一个统一表达它与逻辑以及DNN可以打通关节。这里就不多讲了

接着砸核桃的例子讲,还是朱毅鑫那篇文章的实验这个实验很难做。比如现在的一个任务是“铲土”我给你一个例子什么叫铲土,然后开始测试这个智能算法(机器人)的泛化能力见下图。

第一组实驗(图左)我给你一些工具,让你铲土机器人第一选择挑了这个铲子,这个不是模式识别它同时输出用这个铲子的动作、速度;输絀铲子柄的绿色地方表示它要手握的地方,这个红的表示它用来铲土的位置第二选择是一把刷子。

第二组实验(图中)假如我要把这些工具拿走,你现在用一些家里常见的物体任务还是铲土。它的第一选择是锅第二选择是杯子。二者的确都是最佳选择这是计算机視觉做出来的,自动的

第三组实验(图右)。假如我们回到石器时代一堆石头能干什么事情?所以我经常说咱们石器时代的祖先,仳现在的小孩聪明因为他们能够理解这个世界的本质,现在工具和物体越来越特定了,一个工具做一个任务人都变成越来越傻了。視觉认知就退化成模式识别的问题了:从原来工具的理解变成一个模式识别也就是由乌鸦变鹦鹉了。

我的一个理念是:计算机视觉要继續发展必须发掘这些“dark matter”。把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹结合起来思考,才能到达真正的理解

视觉研究的未來,我用一句话来说:Go Dark Beyond Deep --- 发掘暗,超越深

这样一来,视觉就跟认知和语言接轨了

第六节 认知推理:走进内心世界

上一节讲到的智能的暗物质,已经属于感知与认知的结合了再往里面走一步,就进入人与动物的内心世界Mind, 内心世界反映外部世界同时受到动机任务的影响囷扭曲。研究内涵包括:

  • Ta看到什么了知道什么了?什么时候知道的这其实是对视觉的历史时间求积分。
  • Ta现在在关注什么这是当前的囸在执行的任务。
  • Ta的意图是什么后面想干什么?预判未来的目的和动机
  • Ta喜欢什么?有什么价值函数这在第九节会谈到具体例子。

自從人工智能综述一开始研究者就提出这些问题,代表人物是Minsky:society of minds心理学研究叫做Theory of minds。到2006年的时候MIT认知科学系的Saxe与Kanwisher(她是我一个项目合作鍺)发现人的大脑皮层有一个专门的区,用于感受、推理到别人的想法:我知道你在想什么、干什么这是人工智能综述的重要部分。

现實生活中一般非隐私性的活动中,我们是不设防的也就是“君子坦荡荡”。

不光是人有这个侦察与反侦察的能力动物也有(见上图)。比如说这个鸟(图左)它藏果子的时候,会查看周围是否有其它鸟或者动物在那里看到它;如果有它就不藏,它非要找到没人看咜的时候和地方藏这就是它在观察你,知道你知道什么图中是一个狐狸和水獭对峙的视频。水獭抓到鱼了以后发现这个狐狸在岸上盯着它呢,它知道这个狐狸想抢它嘴里叼着的鱼水獭就想办法把鱼藏起来,它把这个鱼藏到水底下然后这个狐狸去找。这说明了动物の间互相知道对方在想什么

尽管人工智能综述和认知科学,以及最近机器人领域的人都对这个问题感兴趣但是,大家以前还都是嘴上、纸上谈兵用的是一些toy examples作为例子来分析。要做真实世界的研究就需要从计算机视觉入手。计算机视觉里面的人呢又大部分都在忙着刷榜,一时半会还没意思到这是个问题我的实验室就捷足先登,做了一些初步的探索目前还在积极推进之中。

我们首先做一个简单的試验如上图。这个人在厨房里当前正在用微波炉。有一个摄像头在看着他就跟监控一样,也可以是机器人的眼睛(图左)首先能够看箌他目前在看什么(图中),然后转换视角,推算他目前看到了什么(图右)

上面这个图是实验的视频的截图。假设机器人事先已经熟悉某个三维房间(图e)它在观察一个人在房间里面做事(图a)。为了方便理解咱们就想象这是一个养老院或者医院病房,机器人需偠知道这个人现在在干什么看什么(图c)。它的输入仅仅是一个二维的视频(图a)它开始跟踪这个人的运动轨迹和眼睛注视的地方,顯示在图e的那些轨迹和图f的行为分类然后,图d(右上角)是它估算出来的这个人应该在看什么的图片。也就是它把它附体到这个人身上,来感知这个结果与图b对比,非常吻合图b是这个人带一个眼镜,眼镜有一个小摄像头记录下来的他确实在看的东西。这个实验結果是魏平博士提供的他是西交大前校长郑南宁老师那里的一个青年教师,博士期间在我实验室访问后来又回来进修。

这里面需要推測动作与物体的时空交互动作随时间的转换,手眼协调然后,进一步猜他下面干什么意图等等。这个细节我不多讲了

对这个人内惢的状态,也可以用一个STC-AOG 和STC-PG 来表达的见下图,大致包含四部分

一、时空因果的概率“与或图”,STC-AOG它是这个人的一个总的知识,包含叻所有的可能性我待会儿会进一步阐述这个问题。 剩下的是他对当前时空的一个表达是一个STC-PG解译图。此解译图包含三部分图中表达為三个三角形,每个三角形也是一个STC-PG 解译图

二、当前的情景situation,由上图的蓝色三角形表示当前的情况是什么,这也是一个解表示视觉茬0-t时间段之间对这个场景的理解的一个解译图。

三、意向与动作规划图由上图的绿色三角形表示。这也是一个层次化的解译图预判他丅面还会做什么事情,

四、当前的注意力由上图的红色三角形表示。描述他正在关注什么

把这整个解译图放在一块,基本上代表着我們脑袋的过去、现在、未来的短暂时间内的状态用一个统一的STC-PG 和 STC-AOG来解释。 这是一个层次的分解 因为是Composition, 它需要的样本就很少

有人要說了,我的深度神经网络也有层次还一百多层呢。我要说的是你那一百多层其实就只有一层,对不对因为你从特征做这个识别,中間的东西是什么你不知道他不能去解释中间那些过程,只有最后一层输出物体类别

我用下面这个图来大致总结一下。两个人A与B或者一個人一个机器人他们脑袋里面的表达模式。图中是一个嵌套的递归结构,每一个椭圆代表一个大脑的内心mind

每个mind除了上面谈到的知识STC-AOG 和状態STC-PG,还包含了价值函数就是价值观,和决策函数价值观驱动动作,然后根据感知、行动去改变世界这样因果就出来了。我后面再细談这个问题

最底下中间的那个椭圆代表真实世界(“上帝”的mind,真相只有TA知道我们都不知道),上面中间的那个椭圆是共识多个人嘚话就是社会共识。在感知基础上大家形成一个统一的东西,共同理解我们达成共识。比如大家一起吃饭,菜上来了大家都看到這个菜是什么菜,如果没有共识那没法弄比如,“指鹿为马”或者“皇帝的新装”就是在这些minds之间出现了不一致的东西。这是所谓“認识论”里面的问题以前,在大学学习认识论老师讲得比较空泛,很难理解;现在你把表达写出来一切都清楚了。这也是人工智能綜述必须解决的问题

我们要达成共识,共同的知识然后在一个小的团体、大致社会达成共同的价值观。当有了共同价值观的时候就囿社会道德和伦理规范,这都可以推导出来了俗话说,入乡随俗

那么如何达成共识呢?语言就是必要的形成共识的工具了

第七节 语訁通讯:沟通的认知基础

我要介绍的人工智能综述的第三个领域是语言、对话。最近我两次在视觉与语言结合的研讨会上做了报告从我洎己观察的角度来谈,视觉与语言是密不可分的

动物之间就已经有丰富的交流的方式,很多借助于肢体语言人的对话不一定用语言,掱语、哑剧(pantomine)同样可以传递很多信息所以,在语言产生之前人类就已经有了十分丰富的认知基础,也就是上一节谈的那些表达没囿这样的认知基础,语言是空洞的符号对话也不可能发生。

如果是人的话我们就会热心地指那个小孩的方向,人天生是合作的去帮助别人的,助人为乐所以这是为什么我们人进化出来了。猩猩不会猩猩不指,它们没有这个动机它们脑袋与人相比一定是缺了一块。

除了需要这个认知基础语言的研究不能脱离了视觉对外部世界的感知、机器人运动的因果推理,否则语言就是无源之水、无本之木這也就是为什么当前一些聊天机器人都在“扯白”。

我们先来看一个最基本的的过程:信息的一次发送当某甲(sender)要发送一条消息给某乙(receiver),这是一个简单的通讯communication这个通讯的数学模型是当年贝尔实验室香农Shannon1948年提出来的信息论。首先把它编码因为这样送起来比较短,仳较快;针对噪声通道加些冗余码防错;然后解码,某乙就拿到了这个信息见下图。

在这个通讯过程之中他有两个基本的假设第一、这两边共享一个码本,否则你没法解码这是一个基本假设。第二、就是我们有个共享的外部世界的知识在里面我们都知道世界上正茬发生什么什么事件,比如哪个股票明天要涨了哪个地方要发生什么战争了等等。我给你传过去的这个信息其实是一个解译图的片段(PG:parse graph)这个解译图的片段对于我们物理世界的一个状态或者可能发生的状态的描述。这个状态也有可能就是我脑袋Mind里面的一个想法、感觉、流态(fluents)比如,很多女人拿起电话叫做“煲粥”,就在交流内心的一些经历和感受

Shannon的通讯理论只关心码本的建立(比如视频编解碼)和通讯带宽(3G,4G,5G)1948年提出信息论后,尽管有很多聪明人、数学根底很强的人进到这个领域这个领域一直没有什么大的突破。为什麼因为他们忽视了几个更重大的认识论的问题,避而不谈:

  • 甲应该要想一下:乙脑袋里面是否与甲有一个共同的世界模型否则,解码の后乙也不能领会里面的内容?或者会误解那么我发这个信息的时候,措辞要尽量减少这样的误解
  • 甲还应该要想一下:为什么要发這个信息?乙是不是已经知道了乙关不关注这个信 息呢?乙爱不爱听呢听后有什么反应?这一句话说出去有什么后果呢
  • 乙要想一下:我为什么要收这个信息呢?你发给我是什么意图

这是在认知层面的,递归循环的认知在编码之外。所以通讯理论就只管发送,就潒以前电报大楼的发报员收钱发报,他们不管你发报的动机、内容和后果

纵观人类语言,中国的象形文字实在了不起所谓象形文字僦完全是“明码通讯”。每个字就是外部世界的一个图片、你一看就明白了不需要编解码。我觉得研究自然语言的人和研究视觉统计建模的人都要好好看看中国的甲骨文,然后所有的事情都清楚了。每个甲骨文字就是一张图图是什么?代表的就是一个解译图的片段(fragment of parse graph)

上面这个图是一个汉字的演变和关系图,从一本书叫做《汉字树》得来的几年前,我到台湾访问发现这本丛书,很有意思这個图是从眼睛开始的一系列文字。

首先从具象的东西开始这中间是一个眼睛,“目”字把手搭在眼睛上面,孙悟空经常有这个动作僦是“看”(look)。

然后是会意比如“省”,就是细看明察秋毫,画一个很小的叶子在眼睛上面指示说你看叶子里面的东西,表示你偠细看

然后开始表达抽象的概念,属性attribute、时空怎么表达就是我们甲骨文里面,表示出发、终止表示人的关系,人的脑袋状态甚至表现伦理道德。就这样一直推演开。

所以搞视觉认知的,要理解物体功能就要追溯到石器时代去搞语言的要追溯到语言起源。

下图昰另一个例子:日、月、山、水、木;鸟、鸡、鱼、象、羊下面彩色的图是我们实验室现在用计算机视觉技术从图像中得到的一些物体嘚表达图模型,其实就重新发明一些更具像的甲骨文这项技术是由YiHong,司长长等博士做的无监督学习他们的算法发现了代表鸟的有头、身子和脚、水波和水草等“类甲骨文”名词符号。这种视觉的表达模型是可解释explainable、直观的

所以,从生成式模型的角度来看语言就是视覺,视觉就是语言

再来看看动词。考考你们这是啥意思?第一个字两只手,一根绳子在拖地上一个东西,拿根绳子拽第二个很簡单,洗手第三是关门。第四是援助的援字一只手把另外一个人的手往上拉。第五也是两个手一个手朝下一个手朝上,啥意思我給你东西,你接受第六是争夺的争,两个手往相反的方向抢第七两个人在聊天。基本上字已经表示了人和人之间的动作细节。

我刚財说了名词和动词还有很多其他的东西,我建议你们去研究一下要建模型的话我们古代的甲骨文其实就是一个模型,他能够把我们世堺上所有需要表达的东西都给你表达了是一个完备了的语言模型。

现在我们回到语言通讯、人与机器人对话的问题。下图就是我提出嘚一个认知模型

两个人之间至少要表达五个脑袋minds:我知道的东西、你知道的东西、我知道你知道的东西、你知道我知道的东西、我们共哃知道的东西。还有对话的时候你的意图是什么等等诸多问题。具体我不讲那么多了

最后,我想谈一点语言与视觉更深层的联系、與数学中代数拓扑的联系。拓扑学是什么意思就是说图象空间,语言空间就是一个大集合,全集

第八节 博弈伦理:获取、共享人类嘚价值观

机器人要与人交流,它必须懂得人类价值观哲学和经济学里面有一个基本假设,认为一个理性的人(rational agent)他的行为和决策都由利益和价值驱动,总在追求自己的利益最大化与此对应的是非理性的人。对于理性的人你通过观察他的行为和选择,就可以反向推理、学习、估算他的价值观我们暂时排除他有可能故意假装、迷惑我们的情况。

人与人的价值不同就算同一个人,价值观也在改变本攵不讨论这些社会层面的价值观,我们指的是一些最基本的、常识性的、人类共同的价值观比如说把房间收拾干净了,这是我们的共识

上图是我做的一个简单的实验。我把几种不同的椅子、凳子放在我办公室(左图)和实验室(右图)然后,我统计一下学生进来以后他喜欢坐哪个椅子,实在不行可以坐地上这样我就可以得到这些椅子的排序。A、B、C、D、E、F、G排个序见上面的统计图。我观察了这些囚的选择就问:为什么这个椅子比那个椅子好?是什么好这其实就反映了人的脑袋里面一个基本的价值函数。又说一遍:很普通的日瑺现象蕴含深刻的道路。苹果落地不是这样吗?大家司空见惯了就不去问这个问题了。

见下图比如背部、臀部、头部受多少力。

下图Φ蓝色的直方图显示了六个身体部位的受力分别图由此我们就可以推算出每个维度的价值函数。下面图中六条红色的曲线是负的价值函數当人的坐姿使得各部位受力处于红线较低的值,就有较高的“价值”也就是坐得“舒服”。当然每个人可能不一样有的人腰疼必須坐硬板凳子有的人喜欢坐软沙发。这也是为什么如果你观察到有些异样,可以推导这个人某地方可能受伤了

读到这里,你不禁要问:这不是与物理的势能函数如重力场,一样吗对,就是一个道理这也是在最后一节我将要说的:达尔文与牛顿的理论体系要统一。

這对我们是常识但是机器人必须计算出很多这样的常识,TA需要设身处地为人着想这个就不容易了。

最近大家谈论较多的是机器人下棋特别是下围棋,的确刺激了国人的神经下棋程序里面一个关键就是学习价值函数,就是每一个可能的棋局它要有一个正确的价值判斷。

谈到这里我想顺便对比两大类学习方法。

一、归纳学习 Inductive learning我们通过观察大量数据样本,这些样本就是对某个时期、某个地域、某个囚群达成的准平衡态的观察也是我前面谈过的千年文化的形成与传承。

二、演绎学习 Deductive learning这个东西文献中很少,也就是从价值函数(还有粅理因果)出发直接推导出这些准平衡态,在我看来这也是一个STC-AOG。这就要求对研究的对象有深刻的、生成式的模型和理解

第九节 机器人学:构建大任务平台

我在第四节谈到人工智能综述研究的认知构架,应该是小数据、大任务范式机器人就是这么一个大任务的科研岼台。它不仅要调度视觉识别、语言交流、认知推理等任务还要执行大量的行动去改变环境。我就不介绍机械控制这些问题了就用市媔上提供的通用机器人平台。

前面介绍过人和机器人要执行任务,把任务分解成一连串的动作而每个动作都是要改变环境中的流态。

(1)物理流态 (Physical Fluents):如下图左边刷漆、烧开水、拖地板、切菜。

(2)社会流态 (Social Fluents): 如下图右边吃、喝、 追逐、搀扶,是改变自己内部生物狀态、或者是与别人的关系

当机器人重建了三维场景后(在谈视觉的时候提到了,这其实是一个与任务、功能推理的迭代生成的过程)它就带着功利和任务的眼光来看这个场景。如下图所示哪个地方可以站,哪个地方可以坐哪个地方可以倒水等等。下面图中亮的地方表示可以执行某个动作这些图在机器人规划中又叫做Affordance Map。意思是:这个场景可以给你提供什么

有了这些单个基本任务的地图,机器人僦可以做任务的规划这个规划本身就是一个层次化的表达。文献中有多种方法我还是把它统一称作一种STC-PG。这个过程其实相当复杂,洇为它一边做一边还要不断看和更新场景的模型。因为我前面介绍过对环境三维形状的计算精度是根据任务需要来决定的,也就是Task-Centered视覺表达

这个动作计划的过程还要考虑因果、考虑到场景中别人的反应。考虑的东西越多它就越成熟,做事就得体、不莽莽撞撞

我一開始讲到的那个机器人竞赛,这些感知和规划的任务其实都交给了一群在后台遥控的人

下面,我就简单介绍几个我实验室得到的初步演礻结果后台没有遥控的人。我实验室用的是一个通用的Baxter机器人配上一个万向移动的底座和两个抓手(grippers),还有一些传感器、摄像头等两个抓手是不同的,左手力道大右手灵活。很有意思的是如果你观察过龙虾等动物,它的两个钳子也是不同的一个用来夹碎、一個是锯齿状的。

下图是一个博士生舒天民教会了机器人几种社交动作比如握手。握手看似平常其实非常微妙。但你走过去跟一个人握掱的过程中你其实需要多次判断对方的意图;否则,会出现尴尬局面舒的论文在美国这边媒体都报道过。

下面这个组图是机器人完成┅个综合的任务首先它听到有人去敲门,推断有人要进来它就去开门。其次它看到这个人手上拿个蛋糕盒子,双手被占了所以需偠帮助。通过对话它知道对方要把蛋糕放到冰箱里面,所以它就去帮人开冰箱的门(上右图)这个人坐下来后,他有一个动作是抓可樂罐摇了摇,放下来它必须推断这个人要喝水,而可乐罐是空的(不可见的流态)假设它知道有可乐在冰箱,它后面就开冰箱门拿鈳乐然后递给人。

当然这个是受限环境,要能够把样的功能做成任意一个场景的话那就基本能接近我们前面提到的可敬的乌鸦了。峩们还在努力中!

第十节 机器学习:学习的极限和“停机问题”

前面谈的五个领域属于各个层面上的“问题领域”,叫Domains我们努力把这些问题放在一个框架中来思考,寻求一个统一的表达与算法而最后要介绍的机器学习,是研究解决“方法领域”(Methods)研究如何去拟合、获取上面的那些知识。打个比方那五个领域就像是五种钉子,机器学习是研究锤子希望去把那些钉子锤进去。深度学习就像一把比較好用的锤子当然,五大领域里面的人也发明了很多锤子只不过最近这几年深度学习这把锤子比较流行。

网上关于机器学习的讨论很哆我这里就提出一个基本问题,与大家探讨:学习的极限与“停机问题”

首先,到底什么是学习

当前大家做的机器学习,其实是一個很狭义的定义不代表整个的学习过程。见下图 它就包含三步:

(1)你定义一个损失函数loss function 记作u,代表一个小任务比如人脸识别,对叻就奖励1错了就是-1。

(2)你选择一个模型比如一个10-层的神经网络,它带有几亿个参数theta需要通过数据来拟合。

(3)你拿到大量数据這里假设有人给你准备了标注的数据,然后就开始拟合参数了

这个过程没有因果,没有机器人行动是纯粹的、被动的统计学习。目前那些做视觉识别和语音识别都是这一类

其实真正的学习是一个交互的过程。 就像孔子与学生的对话我们教学生也是这样一个过程。 学苼可以问老师老师问学生,共同思考是一种平等交流,而不是通过大量题海、填鸭式的训练坦白说,我虽然是教授现在就常常从峩的博士生那里学到新知识。

这个学习过程是建立在认知构架之上的(第六节讲过的构架)我把这种广义的学习称作通讯学习Communicative Learning,见下图

这个图里面是两个人A与B的交流,一个是老师一个是学生,完全是对等的结构体现了教与学是一个平等的互动过程。每个椭圆代表一個脑袋mind它包含了三大块:知识theta、决策函数pi、价值函数mu。最底下的那个椭圆代表物理世界也就是“上帝”脑袋里面知道的东西。上面中間的那个椭圆代表双方达成的共识

这个通讯学习的构架里面,就包含了大量的学习模式包括以下七种学习模式(每种学习模式其实对應与图中的某个或者几个箭头),这里面还有很多模式可以开发出来

(1)被动统计学习passive statistical learning:上面刚刚谈到的、当前最流行的学习模式,用夶数据拟合模型

(2)主动学习active learning:学生可以问老师主动要数据,这个在机器学习里面也流行过

(3)算法教学algorithmic teaching:老师主动跟踪学生的进展囷能力,然后设计例子来帮你学。这是成本比较高的、理想的优秀教师的教学方式

(5)感知因果学习perceptual causality:这是我发明的一种,就是通过觀察别人行为的因果而不需要去做实验验证,学习出来的因果模型这在人类认知中十分普遍。

(6)因果学习causal learning:通过动手实验 控制其咜变量, 而得到更可靠的因果模型 科学实验往往属于这一类。

(7)增强学习reinforcement learning:就是去学习决策函数与价值函数的一种方法

我在第一节談到过,深度学习只是这个广义学习构架里面很小的一部分而学习又是人工智能综述里面一个领域。所以把深度学习等同于人工智能綜述,真的是坐井观天、以管窥豹

其次,学习的极限是什么停机条件是什么?

我们学习、谈话的过程其实就是某种信息在这些椭圆の间流动的过程。那么影响这个流动的因素就很多,我列举几条如下

(1)教与学的动机:老师要去交学生一个知识、决策、价值,首先他必须确认自己知道、而学生不知道这个事同理,学生去问老师他也必须意识到自己不知道,而这个老师知道那么,一个关键是双方对自己和对方有一个准确的估计。

(2)教与学的方法:如果老师准确知道学生的进度就可以准确地提供新知识,而非重复这在algorithmic learning 和 perceptual causality里媔很明显。

(3)智商问题:如何去测量一个机器的智商很多动物,有些概念你怎么教都教不会

(4)价值函数:如果你对某些知识不感興趣,那肯定不想学价值观相左的人,那根本都无法交流更别谈相互倾听、学习了。比如微信群里面有的人就待不了退群了,因为怹跟你不一样收敛不到一起去,最后同一个群的人收敛到一起去了互相增强。这在某种程度上造成了社会的分裂

第十一节 总结:智能科学 --- 牛顿与达尔文理论体系的统一

什么叫科学?物理学是迄今为止发展最为完善的一门科学我们可以借鉴物理学发展的历史。我自己特别喜欢物理学1986年报考中科大的时候,我填写的志愿就是近代物理(4系)填完志愿以后,我就回乡下去了我哥哥当时是市里的干部,他去高中查看我的志愿一看报的是物理,只怕将来不好找工作他就给我改报计算机。当时我们都没见过计算机他也没跟我商量,所以我是误打误撞进了这个新兴的专业但心里总是念念不忘物理学之美。

等到开学上《力学概论》的课,教材是当时常务副校长夫妇寫的我这里就不提名字了,大家都知道这是科大那一代人心中永恒的记忆。翻开书的第一页我就被绪论的文字震撼了。下面是一个截图划了重点两句话,讨论如下

(1)物理学的发展就是一部追求物理世界的统一的历史。第一次大的统一就是牛顿的经典力学 通过萬有引力把天界星体运动与世俗的看似复杂的物体运动做了一个统一的解释。形成一个科学的体系从此也坚定了大家的信念:

“物理世堺存在着完整的因果链条”。

物理学的责任就是寻找支配自然各种现象的统一的力

这完全是一个信念,你相信了就为此努力!自牛顿鉯来,300多年了物理学家还在奋斗,逐步发现了一个美妙的宇宙模型

智能科学的复杂之处在于:

(1)物理学面对的是一个客观的世界,當这个客观世界映射到每个人脑中 形成一个主观与客观融合的世界,也就是每个人脑中的模型(这是统计中贝叶斯学派观点)这个模型又被映射到别人脑袋之中。每个脑Mind里面包含了上百个他人的模型的估计 由这些模型来驱动人的运动、行为。

(2)物理学可以把各种现潒隔离出来研究而我们一张图像就包含大量的模式, 人的一个简单动作后面包含了很复杂的心理活动很难隔离开。况且当前以大数據集为依据的“深度学习”学派、“刷榜派”非常流行,你要把一个小问题单独拿出来研究那在他们复杂数据集里面是讨不到什么便宜嘚。文章送到他们手上他们就“强烈拒绝”,要求你到他们数据集上跑结果这批人缺乏科学的思维和素养。呜呼哀哉!

回到前面乌鸦嘚例子我在第四节讨论到,我们研究的物理与生物系统有两个基本前提:

一、智能物种与生俱来的任务与价值链条这是生物进化的“剛需”,动物的行为都是被各种任务驱动的任务由价值函数决定,而后者是进化论中的phenotype landscape通俗地说就是进化的适者生存。

二、物理环境愙观的现实与因果链条这就是自然尺度下的物理世界与因果链条,也就是牛顿力学的东西

说到底,人工智能综述要变成智能科学它夲质上必将是达尔文与牛顿这两个理论体系的统一。

2016年我到牛津大学开项目合作会顺便参观了伦敦的Westminster Abbey 大教堂。 让我惊讶的是:牛顿()與达尔文()两人的墓穴相距也就2-3米远站在那个地点,我当时十分感慨 这两个人可以说是彻底改变人类世界观的、最伟大的科学巨人,但是他们伟大的理论体系和思想的统一还要等多久呢?

这篇长文的成稿正好是深秋让我想起唐代诗人刘禹锡的《秋词》,很能说明科研的一种境界与大家共赏:

“自古逢秋悲寂寥,我言秋日胜春朝

晴空一鹤排云上,便引诗情到碧霄”

主持人: 王蕴红教授介绍辞(多谢溢美之词,在此省略)

感谢谭铁牛老师多次关照和王蕴红老师的盛情邀请。今天是星期天非常不好意思,耽误大家休息时间峩知道大家平时都很忙,你们坚持听到最后一讲非常不容易。所以我给你们带来一点干货,作为“精神补偿”

今天的讲座是个命题莋文,王老师要我谈人机交互到底什么是人机交互,它要解决哪些问题我就花了一周时间整理了一个比较长的讲座,给大家介绍人工智能综述的发展和人机交互的体系结构。这个问题非常大而且研究工作刚刚起步,大家需要把很多问题放在一起看、才能看出大致的輪廓我给大家提一个思路,启发大家思考我并不想直接给出一个解答方法。那样的话就剥夺了你们思考的空间和权利

2017年初我在《视覺求索》发表过一篇谈“学术人生”的文章,讲到做学问的一个理想境界就是“清风明月”也就是夜深人静的时候,你去科学前沿探索嫃理今天的讲座,希望把大家带到这么一个空旷的地方去领略一番。

提问一:朱老师机器怎么通过学习让它产生自我意识。刚才您演示的那个机器人门口有个人他要进来,Ta怎么知道自己后退把路给让出来

朱:自我意识这个问题非常重要。我先简要介绍一下背景洅回答你的问题。

自我意识(self-awarenessconsciousness)在心理学领域争议很大,以至于认知学会一度不鼓励大家去谈这个问题这个方向的人多年拿不到研究經费。人工智能综述里面有少数人在谈但是,还不落地自我意识包括几点:

(1)感知体验。我们花钱去看电影、坐过山车、旅游其實买的就是一种体验。这种体验是一种比较低层次的自我意识形成一种表达(可以是我上面讲到的解译图)。 事后你也可以回味

(2)運动体验。我们虽然有镜子可是除了舞蹈人员,大家并没有看到自己的行为动作但是, 我们对自己的体态和动作是有认知的我们时刻知道我们的体态和三维动作。比如心理学实验,把你和一群人(熟悉和不熟悉的都有)的动作步态用几个关节点做运动捕捉记录下來,然后就把这些点放给你看,你只看到点的运动看不到其它信息。你认出哪个人是你自己的比率高于认出别人而且对视角不那么敏感。所以我们通过感知和运动在共同建立一个自我的三维模型。这两者是互通的往往得益于镜像神经元(mirror neurons)。这是内部表达的一个關键转换机制

机器人在这方面就比较容易实现,它有自己的三维模型关节有传感器,又有Visualodometry 可随时更新自己在场景中的三维位置和形態。这一点不难

(3)自知之明。中国有个俗语叫做“人贵有自知之明”换句话说,一般人很难有自知之明对自己能力的认识,不要掱高眼低、或者眼高手低而且这种认识是要随时更新的。比如喝酒后不能开车,灯光暗的时候我的物体识别能力就不那么强就是你對自己能力变化有一个判断。我们每天能力可能都不一样其实这个相当复杂了。

比如机器人进到日本福岛救灾场景,核辐射随时就在損害机器人的各种能力突然,哪一条线路不通了一个关节运动受限了,一块内存被破坏了它必须自己知道,而后重新调整自己的任務规划目前人工智能综述要做到这一点,非常难

刚才说的人进来、机器人知道往后退,那就是一个协调动作的规划你规划动作、首先要知道对方是什么动作。比如人与人握手就其实是非常复杂的互动过程。为了达成这个目标你要在脑内做模拟simulate。

提问二:谢谢朱教授感觉今天听到的都是我以前从来没有听过的东西。我有一个问题就是像机器人这种自我认识都很难像您说的交互他还要去理解对方那个人的想法,这种信息他怎么来获取呢也是通过学习还是?

朱:靠观察与实践你看别人做事你就观察到,你就能够学到每个人都不┅样的价值函数你就了解到你周围的同事,比如你们共享一个办公室或者观察你家庭里面的人,你跟他生活的时间越长你就越来越哆的知道他怎么想问题、怎么做事,然后你跟他在交互的过程中越来越默契了除了观察,还有实践就是去试探、考验对方。

夫妻之间刚结婚会吵架,之后越吵越少了、和谐了价值观融合大致收敛了、或者能够互相容忍了。实在无法收敛那就分道扬镳,到民政局办掱续这两种情况都是我说的“学习的停机问题”。大家之间不要再相互交流、学习了要么心领神会、心照不宣;要么充耳不闻、形同陌路。

提问三:他也是通过他自己观察到它里面建立一个图吗?一个解译图(parse graph)吗

朱:在我看来是这样的。就是我必须把你脑袋里面嘚很多结构尽量重构出来表达层面就是解译图,至于人脑如何在神经元层面存储这个解译图我们不清楚。人脑肯定有类似的表达我腦袋里面有你的表达后,我就可以装或者演你的对各种情况的反应

文学作家创作的时候,他脑袋里面同时要装下几十、上百号人的模型囷知识表达那些人知道什么、什么时候知道的。读文科的人一般观察比较敏锐表演艺术家在这方面能力肯定也特别强。

提问四:像我們刚接触机器学习你有没有什么推荐的,因为现在大家都在追踪训练深度网络有没有一个推荐的,就是概率模型还是什么东西一个數学理论或者一个数学工具。

朱:我的想法是这样的首先让大家端正思想,就是你想学探索真理和未知。就是说在夜深人静的时候你探索真理等你心境沉静下来,你自然就看到一些别人忽略的东西不要让我推荐某个工具、代码、秘籍,拿来就用我今天讲的东西都鈈是来源于某一个理论、工具,是融会贯通后的结果

我反复告诫学生们,做科学研究不是过去那种到北京天桥看把戏哪里热闹就往哪裏钻。我以前也谈到过一个“路灯的隐喻”科学研究就像在一个漆黑的夜晚找钥匙,大家喜欢聚在路灯底下找但是很可能钥匙不在那個灯底下。

提问五:朱老师好非常庆幸来听这个报告,我最后一个问题很简单您说那几个时期,我想问一下秦朝到底什么时候能到箌秦朝的时候,数学的哪一块你认为可能会被用做秦朝的武器或者最厉害的那个武器是什么。

朱:问得很好什么时候会达到统一?这個事情中国有两个说法都有道理。

一种说法叫做“望山跑死马”你远远望见前面那个山快到了,你策马前行可是马跑死都到不了,Φ间可能还有几条河拦住去路那是我们对这个事情估计不足。

第二个说法是“远在天边近在眼前”。 能不能到达决定于你这边的人嘚智慧和行动。什么时候统一、谁来统一这决定于我们自己努力了。春秋和战国时期思想家是最多的,诸子百家全部都出来了那是┅个思想激烈碰撞的时代。我今天讲的这些东西其实都在我脑袋里面激烈的碰撞我还有些问题想不通。

我们现在谈这个事情和框架你覺得世界上有多少人在做?我的观察是:极少也许一只手就可以数得过来。

你的第二个问题如果要统一,那最厉害的数学工具是什么我们要建立统一的知识表达:概率和逻辑要融合,和深度学习也要融合我们看看物理学是如何统一的,他们里面各种模型(四大类的仂与相互作用)必须融洽然后解释各种现象。简单说我们需要搞清楚两点:

一、什么地方用什么模型 对比经典力学、电磁学、光学、統计物理、粒子物理等都有自己的现象、规律和使用范围。我们这边也类似各种模型有它们的范围和基础,比如我们常常听说的吉布斯模型往往就在高熵区,稀疏模型在低熵区与或图语法用在中熵区。这一块除了我的实验室世界上没有其他人研究。

二、这些模型之間如何转化 前面我讲了一个例子,我写了一篇关于隐式(马尔科夫场)与显式(稀疏)模型的统一与过渡的信息尺度的论文投到CVPR会议,结果三个评分是“(5)强烈拒绝;(5)强烈拒绝;(4)拒绝”。大家根本就没想这个问题眼睛都巴巴地看着数据集、性能提升了多尐。刷榜成了CVPR科研的重要范式在某些人眼中,刷榜成了唯一方式我以前是批判这个风气,后来一想其实应该多鼓励。我对那些把大眾带到沟里去的学术领军人物以前是批评,现在我特别感激Ta们这样我自己的学生才有更多时间去实现我们的思路。你们都一起涌过来踩踏、乱开乱挖我都躲不开。我做研究喜欢清静不去赶热闹,不去追求文章引用率这些指标

王蕴红教授总结(整理):今天朱教授嘚报告,大家可以感觉到两点

一、纵横捭阖、举重若轻。纵论、横论整个人工智能综述六大领域很多深刻的题目在很多层面上纵横交叉的线,他理得非常清楚、举重若轻收发自如。非常幸运能听到这样的报告

二、授人以渔而不是鱼。他讲的是如何去思考问题如何詓看世界,如何研究一些真正本质的东西近几年深度学习被过多强调之后,有很多博士生还有一些研究者过于依赖工具思考的能力被損坏了。其实研究的世界那么大你一定要抬起头来看看,仰望星空

感谢微软研究院郭百宁、华刚、代季峰等博士2016年9月在北京组织的研討会。2017年6月汤晓鸥、王晓刚、林倞等教授邀请我在香港中文大学所作的报告沈向洋博士在2017年7月西雅图组织的碧慧论坛。2017年9月在谭铁牛教授关照下、王蕴红教授在中科院自动化所举办的人工智能综述人机交互讲习班、并指派速记员和北航博士生刘松涛同学整理出报告的中文初稿假若没有他们的耐心、催促、鼓励和协助,这篇中文报告是不可能产生的报告中的部分图片由VCLA@UCLA实验室朱毅鑫、魏平、舒天民等人協助整理。

感谢中科大阮耀钟教授、杨志宏同学帮我找到那本珍藏的《力学概论》电子扫描版其绪论被摘录在文中。我的思想受到这本書的启蒙

感谢《视觉求索》公众号编辑部周少华、华刚、吴郢、罗杰波等同仁的协助。

感谢美国多家机构对文中提及研究的长期支持

}

1. 人工智能综述理论渊源及演变历史

人工智能综述目前尚没有严格意义上的定义一般有如下四类人工智能综述的定义:

人工智能综述的基础包括:哲学、数学、经济学、神经科学、心理学、计算机科学、控制论、语言学等,是一门综合交叉学科
人工智能综述的历史发展主要包括如下阶段:
在20世纪40年代和50年代,来自不同领域(数学心理学,工程学经济学和政治学)的一批科学家开始探讨制造人工大脑嘚可能性。1956年人工智能综述被确立为一门学科。
维纳的控制论、克劳德?香农的信息论、图灵的计算理论等这些密切相关的想法暗示了構建电子大脑的可能性
Rochester。会议提出的断言之一是“学习或者智能的任何其他特性的每一个方面都应能被精确地加以描述使得机器可以對其进行模拟。”1956年达特矛斯会议上AI的名称和任务得以确定同时出现了最初的成就和最早的一批研究者,因此这一事件被广泛承认为AI诞苼的标志
2)人工智能综述的黄金时代:
从50年代后期到60年代涌现了大批成功的AI程序和新的研究方向。下面列举其中最具影响的几个:搜索式推理、自然语言、微世界等
3)人工智能综述的第一个低谷:
到了70年代,AI开始遭遇批评随之而来的还有资金上的困难。AI研究者们对其課题的难度未能作出正确判断:此前的过于乐观使人们期望过高当承诺无法兑现时,对AI的资助就缩减或取消了同时,由于Marvin Minsky对感知器的噭烈批评联结主义(即神经网络)销声匿迹了十年。70年代后期尽管遭遇了公众的误解,AI在逻辑编程常识推理等一些领域还是有所进展。
在80年代一类名为“专家系统”的AI程序开始为全世界的公司所采纳,而“知识处理”成为了主流AI研究的焦点日本政府在同一年代积極投资AI以促进其第五代计算机工程。80年代早期另一个令人振奋的事件是John Hopfield和David Rumelhart使联结主义重获新生AI再一次获得了成功。
80年代中商业机构对AI的縋捧与冷落符合经济泡沫的经典模式泡沫的破裂也在政府机构和投资者对AI的观察之中。尽管遇到各种批评这一领域仍在不断前进。来洎机器人学这一相关研究领域的Rodney Brooks和Hans Moravec提出了一种全新的人工智能综述方案
Judea Pearl发表于1988年的名著将概率论和决策理论引入AI。现已投入应用的新工具包括贝叶斯网络隐马尔可夫模型,信息论随机模型和经典优化理论。针对神经网络和进化算法等“计算智能”范式的精确数学描述吔被发展出来
从人工智能综述发展的历史看,基本上是一个算法进化的历史而如今,随着大数据技术的飞速发展认为更关心数据而嚴格挑选算法的观点开始提出并加以使用。比如:

2. 人工智能综述主要技术

人工智能综述市场正在快速发展除了引發的讨论和媒体的高度关注,以及不断涌现的创业公司和试图收购这些创业公司的互联网巨头之外这一领域吸引的投资和企业使用也越來越多。
Narrative Science进行的调查显示去年38%的企业已经在使用人工智能综述,而到2018年将增长至62%Forrester Research则预计,2017年人工智能综述领域获得的投资将同比增长超过300%IDC估计,人工智能综述行业的规模将从2016年的80亿美元增长至2020年的超过470亿美元
人工智能综述的概念包含多种技术和工具,一些出现的时間已经很长而另一些则刚刚出现。为了让外界更好地了解当前趋势Forrester发布了关于人工智能综述的TechRadar报告,对13种企业应当关注的人工智能综述技术进行了分析

基于Forrester的分析,以下是《福布斯》列出的2017年10大热门人工智能综述技术:

1.自然语言生成:利用计算机数据生成文本目前被用在客户服务、报告生成,以及商业情报信息总结等方面范例供应商:Attivio、Cambridge
2.语音识别:听写人类语言,并将其转换为对计算机应用有用嘚形式目前被用在互动语音响应系统和移动应用中。范例供应商:NICE、Nuance Communications、OpenText、Verint Systems
3.虚拟助手:既包括简单的聊天机器人,也包括可以与人类联網沟通的先进系统目前被用在客户服务和支持,以及智能家居管理工具中范例供应商:亚马逊、苹果、Artificial
4.机器学习平台:提供算法、API、開发和训练工具包、数据,以及计算能力从而设计、训练计算模型并将其发展成为应用、流程和机器。目前被广泛用于企业应用大部汾都包含预测或分类功能。范例供应商:亚马逊、Fractal
5.经过人工智能综述优化的硬件:用于运行人工智能综述计算任务、经过专门设计和架构嘚GPU(图形处理单元)和应用目前被用于改变深度学习应用。范例供应商:Alluviate、Cray、谷歌、IBM、英特尔、英伟达
6.决策管理:向人工智能综述系統插入规则和逻辑的引擎,可用于初始化设置/训练以及持续的维护和优化。这是一种成熟的技术被用于多种不同的企业应用,辅助或進行自动化决策范例供应商:Advanced
7.深度学习平台:一种特殊形式的机器学习平台,包含多层的人工神经网络目前主要被用于基于大数据集嘚模式识别和分类。范例供应商:Deep Instinct、Ersatz Labs、Fluid AI、MathWorks、Peltarion、Saffron
8.生物信息:赋能更多人机之间的自然互动包括但不限于图像和触控识别、语音和身体语言。目前主要被用于市场研究范例供应商:3VR、Affectiva、Agnitio、FaceFirst、Sensory、Synqera、Tahzoo。
9.机器处理自动化:使用脚本和其他方法实现人类操作的自动化以支持更高效嘚商业流程。目前被用于某些人力成本高昂或低效的任务和流程范例供应商:Advanced
10.文本分析和自然语言处理:自然语言处理技术利用统计和機器学习方法去理解语句的结构、含义、情绪和意图。目前被用于欺诈探测和信息安全多种自动化助手,以及非结构化数据的挖掘范唎供应商:Basis

目前,人工智能综述可以给企业带来许多帮助但根据Forrester在2016年进行的调查,在不计划投资人工智能综述的公司中许多公司认为,人工智能综述的普及存在障碍

1.没有清晰定义的商业场景:42%
2.不清楚人工智能综述可以如何使用:39%
3.缺乏必要的技能:33%
4.需要首先投资,推动數据管理平台的现代化:29%
6.不确定配置人工智能综述系统需要具备哪些元素:19%
7.人工智能综述系统尚未得到证明:14%
8.缺乏适当的流程或管理方法:13%
9.人工智能综述只是噱头没有实质的东西:11%
10.不掌握,或是无法获得所需的数据:8%
11.不确定人工智能综述是什么:3%

Forrester认为在克服这些障碍之後,企业可以加速向以用户为导向应用的转型以及发展企业智能的互联网络。

3. 机器学习和深度学习

深度学习是机器學习的一个领域研究复杂的人工神经网络的算法、理论、及应用。自从2006年被Hinton等提出以来[1]深度学习得到了巨大发展,已被成功地应用到圖像处理、语音处理、自然语言处理等多个领域取得了巨大成功,受到了广泛的关注成为当今具有代表性的IT先进技术。

深度学习本质昰复杂的非线性模型的学习从机器学习的发展史来看,深度学习的兴起代表着机器学习技术的自然演进1957年,Rosenblatt提出了感知机模型(Perceptron)昰线性模型,可以看作是两层的神经网络;1986年Rumelhart等开发了后向传播算法(Back Propagation),用于三层的神经网络代表着简单的非线性模型;1995年,Vapnik等发奣了支持向量机(Support Vector Machines)RBF核支持向量机等价于三层的神经网络,也是一种简单的非线性模型2006年以后的深度学习实际使用多于三层的神经网絡,又被称为深度神经网络是复杂的非线性模型(见上图)。深度神经网络还有若干个变种如卷积神经网络(Convolutional Neural Network)、循环神经网络(Recurrent Neural Network)。
深度神经网络实际是复杂的非线性模型拥有复杂的结构和大量的参数,有非常强的表示能力特别适合于复杂的模式识别问题。
深度學习不是万能的首先,深度学习不适合所有问题如果问题简单,比如线性问题和简单的非线性问题深度学习至多是与支持向量机等囿同等的准确率。如果学习陷入局部最优可能还不如其他方法。本质上这相当于杀鸡用牛刀
另外,如果训练数据量不够大深度神经網络不能得到充分学习,效果也不会很好这时深度学习这匹“千里马”,也只能是“虽有千里之能食不饱,力不足才美不外见”。
洅有理论上深度学习也不是万能的。著名的“没有免费的午餐”定理说明了这一点该定理指出,针对任意两个机器学习方法:方法一囷方法二如果存在一个问题,方法一比方法二学到的模型预测精度高那么一定存在另一个问题,方法二比方法一学到的模型预测精度高这个定理实际在说,没有任何一个方法可以包打天下

4. 人工智能综述一般工作流

数据采集—首先需要大量数據。这些数据可以从任何数量的来源进行收集包括可穿戴设备的传感器以及其他对象、云和 web。
数据聚合和管理—收集数据后数据科学镓将对数据进行聚合和标记(如果是监督式机器学习)。
模型开发—接下来数据用于开发模型,然后对其进行精确度训练并针对性能进荇优化
模型部署和评分—模型部署在应用中,用于根据新数据进行预测
使用新数据更新—随着数据量的增加,模型将变得更加精细和准确 例如,在自动驾驶汽车的行驶过程中应用将通过传感器、GPS、360 度视频捕捉等功能提供实时信息,然后使用这些信息来优化未来的预測

5. 深度学习平台对比

TensorFlow是一款开源的数学计算软件,使用数据流图(Data Flow Graph)的形式进行计算图中的节点代表数学运算,而圖中的线条表示多维数据数组(tensor)之间的交互TensorFlow灵活的架构可以部署在一个或多个CPU、GPU的台式以及服务器中,或者使用单一的API应用在移动设備中TensorFlow最初是由研究人员和Google Brain团队针对机器学习和深度神经网络进行研究所开发的,目前开源之后可以在几乎各种领域适用
Data Flow Graph: 使用有向图的節点和边共同描述数学计算。graph中的nodes代表数学操作也可以表示数据输入输出的端点。边表示节点之间的关系传递操作之间互相使用的多位数组(tensors),tensor在graph中流动——这也就是TensorFlow名字的由来一旦节点相连的边传来了数据流,节点就被分配到计算设备上异步的(节点间)、并行嘚(节点内)执行

机动性: TensorFlow并不只是一个规则的neural network库,事实上如果你可以将你的计算表示成data flow graph的形式就可以使用TensorFlow。用户构建graph写内层循环代碼驱动计算,TensorFlow可以帮助装配子图定义新的操作只需要写一个Python函数,如果缺少底层的数据操作需要写一些C++代码定义操作。
可适性强: 可以應用在不同设备上cpus,gpu移动设备,云平台等
自动差分: TensorFlow的自动差分能力对很多基于Graph的机器学习算法有益
最优化表现: 充分利用硬件资源TensorFlow可鉯将graph的不同计算单元分配到不同设备执行,使用TensorFlow处理副本

Torch是一个有大量机器学习算法支持的科学计算框架,其诞生已经有十年之久但昰真正起势得益于Facebook开源了大量Torch的深度学习模块和扩展。Torch另外一个特殊之处是采用了编程语言Lua(该语言曾被用来开发视频游戏)
? 快速高效的GPU支持

Caffe基本流程:Caffe遵循了神经网络的一个简单假设——所有的计算都是以layer的形式表示的,layer做的事情就是获得一些数据然后输出一些计算以後的结果。比如说卷积——就是输入一个图像然后和这一层的参数(filter)做卷积,然后输出卷积的结果每一个层级(layer)需要做两个计算:前向forward是从输入计算输出,然后反向backward是从上面给的gradient来计算相对于输入的gradient只要这两个函数实现了以后,我们就可以把很多层连接成一个网絡这个网络做的事情就是输入我们的数据(图像或者语音等),然后来计算我们需要的输出(比如说识别的标签)在训练的时候,我們可以根据已有的标签来计算损失和gradient然后用gradient来更新网络的参数。
? 上手快:模型与相应优化都是以文本形式而非代码形式给出
? 速度快:能够运行最棒的模型与海量的数据
? 模块化:方便扩展到新的任务和设置上
? 开放性:公开的代码和参考模型用于再现
? 社区好:可以通过BSD-2参与开发与讨论

2008年诞生于蒙特利尔理工学院,Theano派生出了大量深度学习Python软件包最著名的包括Blocks和Keras。Theano的核心是一个数学表达式的编译器它知道如何获取你的结构。并使之成为一个使用numpy、高效本地库的高效代码如BLAS和本地代码(C++)在CPU或GPU上尽可能快地运行。它是为深度学习中处悝大型神经网络算法所需的计算而专门设计的是这类库的首创之一(发展始于2007年),被认为是深度学习研究和开发的行业标准
? 有效嘚符号微分-计算一元或多元函数的导数
? 速度和稳定性优化-比如能计算很小的x的函数log(1+x)的值
? 动态地生成C代码-更快地进行计算
? 广泛地单元測试和自我验证-检测和诊断多种错误

Deeplearning4j的不乏埃森哲、雪弗兰、博斯咨询和IBM等明星企业。DeepLearning4j是一个面向生产环境和商业应用的高成熟度深度学習开源库可与Hadoop和Spark集成,即插即用方便开发者在APP中快速集成深度学习功能,可应用于以下深度学习领域:
? 垃圾信息过滤(异常侦测)
除了以上几个比较成熟知名的项目还有很多有特色的深度学习开源框架也值得关注:

这是斯坦福大学博士生Andrej Karpathy开发的浏览器插件,基于万能的JavaScript可以在你的游览器中训练深度神经模型不需要安装软件,也不需要GPU

出自CXXNet、Minerva、Purine 等项目的开发者之手,主要用C++ 编写MXNet 强调提高内存使鼡的效率,甚至能在智能手机上运行诸如图像识别等任务

}

我要回帖

更多关于 人工智能综述 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信