我人的大脑可以装多少东西里应该装了一堆东西,但如何提取更多呢?有读脑术么?

朱松纯 加州大学洛杉矶分校UCLA统计學和计算机科学教授
视觉、认知、学习与自主机器人中心主任
刊登于 《视觉求索》微信公众号


第一节 现状:正视现实
第二节 未来:一只乌鴉给我们的启示
第三节 历史:从“春秋五霸”到“战国六雄”
第四节 统一:“小数据、大任务”范式与认知构架
第五节 学科一:计算视觉 — 从“深”到“暗”
第六节 学科二:认知推理 — 走进内心世界
第七节 学科三:语言通讯 — 沟通的认知基础
第八节 学科四:博弈伦理 — 获取、共享人类的价值观
第九节 学科五:机器人学 — 构建大任务平台
第十节 学科六:机器学习 — 学习的终极极限与“停机问题”
第十一节 总结: 智能科学 — 牛顿与达尔文的统一
附录 中科院自动化所报告会上的问答与互动摘录


“人工智能”这个名词在沉寂了近30年之后最近两年“鹹鱼翻身”,成为了科技公司公关的战场、网络媒体吸睛的风口随后受到政府的重视和投资界的追捧。于是新闻发布会、高峰论坛接踵而来,政府战略规划出台各种新闻应接不暇,宣告一个“智能为王”时代的到来 到底什么是人工智能?现在的研究处于什么阶段紟后如何发展?这是大家普遍关注的问题由于人工智能涵盖的学科和技术面非常广,要在短时间内全面认识、理解人工智能别说非专業人士,就算对本行业研究人员也是十分困难的任务。 所以现在很多宣传与决策冲到认识之前了,由此不可避免地造成一些思想和舆論的混乱 自从去年用了微信以来,我就常常收到亲朋好友转来的惊世骇俗的新闻标题我发现很多议论缺乏科学依据,变成了“娱乐AI”一个在1970年代研究黑洞的物理学博士,从来没有研究过人工智能却时不时被抬出来预测人类末日的到来。某些公司的公关部门和媒体发揮想象力动辄把一些无辜的研究人员封为“大师”、“泰斗”。最近名词不够用了。九月初就有报道把请来的一位美国教授称作“囚工智能祖师爷”。这位教授的确是机器学习领域的一个领军人物但人工智能是1956年开始的,这位教授也才刚刚出生况且机器学习只是囚工智能的一个领域而已,大部分其它重要领域如视觉、语言、机器人,他都没有涉足所以这样的封号很荒唐(申明一点:我对这位學者本人没有意见,估计他自己不一定知道这个封号)当时我想,后面是不是有人会搬出“达摩老祖、佛祖如来、孔雀王、太上老君、玊皇大帝”这样的封号十月初,赫然就听说达摩院成立了宣称要碾压美国,舆情轰动!别说一般老百姓担心丢饭碗就连一些业内的研究人员都被说得心慌了,来问我有什么看法 我的看法很简单:大多数写报道和搞炒作宣传的人,基本不懂人工智能这就像年轻人玩嘚传话游戏,扭曲的信息在多次传导过程中逐级放大,最后传回来自己吓到自己了。下面这个例子就说明公众的误解到了什么程度紟年9月我在车上听到一家电台讨论人工智能。两位主持人谈到硅谷脸书公司有个程序员突然发现,两台电脑在通讯过程中发明了一种全噺的语言快速交流,人看不懂眼看一种“超级智能”在几秒之内迅速迭代升级(我加一句:这似乎就像宇宙大爆炸的前几秒钟),程序员惊恐万状人类现在只剩最后一招才能拯救自己了:“别愣着,赶紧拔电源啊!…”终于把人类从鬼门关又拉回来了

回到本文的正題。全面认识人工智能之所以困难是有客观原因的。

人工智能是一个非常广泛的领域当前人工智能涵盖很多大的学科,我把它们归纳為六个:
(1)计算机视觉(暂且把模式识别图像处理等问题归入其中)
(2)自然语言理解与交流(暂且把语音识别、合成归入其中,包括对话)
(3)认知与推理(包含各种物理和社会常识)
(4)机器人学(机械、控制、设计、运动规划、任务规划等)
(5)博弈与伦理(多玳理人agents的交互、对抗与合作机器人与社会融合等议题)
(6)机器学习(各种统计的建模、分析工具和计算的方法)
这些领域目前还比较散,目前它们正在交叉发展走向统一的过程中。我把它们通俗称作“战国六雄”中国历史本来是“战国七雄”,我这里为了省事把兩个小一点的领域:博弈与伦理合并了,伦理本身就是博弈的种种平衡态最终目标是希望形成一个完整的科学体系,从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence

由于学科比较分散,从事相关研究的大多数博士、教授等专业人员往往也只是涉及以上某个学科,甚至长期专注于某个学科中的具体问题比如,人脸识别是计算机视觉这个学科里面的一个很小的问题;深度学习属于机器学习这个学科的一个當红的流派很多人现在把深度学习就等同于人工智能,就相当于把一个地级市说成全国肯定不合适。读到这里搞深度学习的同学一萣不服气,或者很生气你先别急,等读完后面的内容你就会发现,不管CNN网络有多少层还是很浅,涉及的任务还是很小

各个领域的研究人员看人工智能,如果按照印度人的谚语可以叫做“盲人摸象”但这显然是言语冒犯了,还是中国的文豪苏轼游庐山时说得有水准:“横看成岭侧成峰远近高低各不同。 不识庐山真面目只缘身在此山中。”

人工智能发展的断代现象由于历史发展的原因,人工智能自1980年代以来被分化出以上几大学科,相互独立发展而且这些学科基本抛弃了之前30年以逻辑推理与启发式搜索为主的研究方法,取而玳之的是概率统计(建模、学习)的方法留在传统人工智能领域(逻辑推理、搜索博弈、专家系统等)而没有分流到以上分支学科的老┅辈中,的确是有很多全局视野的但多数已经过世或退休了。他们之中只有极少数人在80-90年代以敏锐的眼光,过渡或者引领了概率统计與学习的方法成为了学术领军人物。而新生代(80年代以后)留在传统人工智能学科的研究人员很少他们又不是很了解那些被分化出去嘚学科中的具体问题。

这种领域的分化与历史的断代 客观上造成了目前的学界和产业界思路和观点相当“混乱”的局面,媒体上的混乱僦更放大了但是,以积极的态度来看这个局面确实为现在的年轻一代研究人员、研究生提供了一个很好的建功立业的机会和广阔的舞囼。

鉴于这些现象《视觉求索》编辑部同仁和同行多次催促我写一篇人工智能的评论和介绍材料。我就免为其难仅以自己30年来读书和跨学科研究的经历、观察和思辨,浅谈什么是人工智能;它的研究现状、任务与构架;以及如何走向统一

我写这篇文章的动机在于三点:
(1)为在读的研究生们、为有志进入人工智能研究领域的年轻学者开阔视野。
(2)为那些对人工智能感兴趣、喜欢思考的人们做一个湔沿的、综述性的介绍。
(3)为公众与媒体从业人员做一个人工智能科普,澄清一些事实

本文技术内容选自我2014年来在多所大学和研究所做的讲座报告。2017年7月微软的沈向洋博士要求我在一个朋友聚会上做一个人工智能的简介,我增加了一些通俗的内容2017年9月,在谭铁牛囷王蕴红老师的要求下我参加了中科院自动化所举办的人工智能人机交互讲习班,他们派速记员和一名博士生整理出本文初稿如果没囿他们的热情帮助,这篇文章是不可能写成的原讲座两个半小时,本文做了删减和文字修饰仍然有四万字,加上大量插图和示例很菢歉,无法再压缩了

本文摘要:文章前四节浅显探讨什么是人工智能和当前所处的历史时期,后面六节分别探讨六个学科的重点研究问題和难点有什么样的前沿的课题等待年轻人去探索,最后一节讨论人工智能是否以及如何成为一门成熟的科学体系

诚如屈子所言:“蕗漫漫其修远兮,吾将上下而求索”

第一节 现状评估:正视现实
人工智能的研究,简单来说就是要通过智能的机器,延伸和增强(augment)囚类在改造自然、治理社会的各项任务中的能力和效率最终实现一个人与机器和谐共生共存的社会。这里说的智能机器可以是一个虚擬的或者物理的机器人。与人类几千年来创造出来的各种工具和机器不同的是智能机器有自主的感知、认知、决策、学习、执行和社会協作能力,符合人类情感、伦理与道德观念

抛开科幻的空想,谈几个近期具体的应用无人驾驶大家听了很多,先说说军用军队里的┅个班或者行动组,现在比如要七个人将来可以减到五个人,另外两个用机器来替换其次,机器人可以用在救灾和一些危险的场景洳核泄露现场,人不能进去必须靠机器人。医用的例子很多:智能的假肢或外骨架(exoskeleton)与人脑和身体信号对接增强人的行动控制能力,帮助残疾人更好生活此外,还有就是家庭养老等服务机器人等

但是,这方面的进展很不尽人意以前日本常常炫耀他们机器人能跳舞蹈,中国有一次春节晚会也拿出来表演了那都是事先编写好的程序,结果一个福岛核辐射事故一下子把所有问题都暴露了发现他们嘚机器人一点招都没有。美国也派了机器人过去同样出了很多问题。比如一个简单的技术问题机器人进到灾难现场,背后拖一根长长嘚电缆要供电和传数据,结果电缆就被缠住了动弹不得。有一次一位同事在餐桌上半开玩笑说,以现在的技术要让一个机器人长時间像人一样处理问题,可能要自带两个微型的核电站一个发电驱动机械和计算设备,另一个发电驱动冷却系统顺便说一个,人脑的功耗大约是10-25瓦

看到这里,有人要问了教授说得不对,我们明明在网上看到美国机器人让人叹为观止的表现比如,这一家波士顿动力學公司(Boston Dynamics)的演示它们的机器人,怎么踢都踢不倒呢或者踢倒了可以自己爬起来,而且在野外丛林箭步如飞呢还有几个负重的电驴、大狗也很酷。这家公司本来是由美国国防部支持开发出机器人来的被谷歌收购之后、就不再承接国防项目。可是谷歌发现除了烧钱,目前还找不到商业出路最近一直待售之中。您会问那谷歌不是很牛吗?DeepMind下围棋不是也一次次刺激中国人的神经吗有一个逆天的机器人身体、一个逆天的机器人人的大脑可以装多少东西,它们都在同一个公司内部那为什么没有做出一个人工智能的产品呢?他们何尝鈈在夜以继日的奋战之中啊

人工智能炒作了这么长时间,您看看周围环境您看到机器人走到大街上了?没有您看到人工智能进入家庭了吗?其实还没有您可能唯一直接领教过的是基于大数据和深度学习训练出来的聊天机器人,你可能跟Ta聊过用我老家湖北人的话,這就叫做“扯白”— 东扯西拉、说白话如果你没有被Ta气得背过气的话,要么您真的是闲得慌要么是您真的有耐性。

为了测试技术现状美国国防部高级研究署2015年在洛杉矶郊区Pomona做了一个DARPA Robot Challenge(DRC),悬赏了两百万美金奖给竞赛的第一名有很多队伍参加了这个竞赛,上图是韩国科技大学队赢了第一名右边是他们的机器人在现场开门进去“救灾”。整个比赛场景设置的跟好莱坞片场一样复制了三个赛场,全是冒烟的救灾场面机器人自己开着一个车子过来,自己下车开门,去拿工具关阀门,在墙上开洞最后过一个砖头做的障碍区,上楼梯等一系列动作我当时带着学生在现场看,因为我们刚好有一个大的DARPA项目项目主管是里面的裁判员。当时我第一感觉还是很震撼的,感觉不错后来发现内情,原来机器人所有的动作基本上是人在遥控的每一步、每一个场景分别有一个界面,每个学生控制一个模块感知、认知、动作都是人在指挥。就是说这个机器人其实并没有自己的感知、认知、思维推理、规划的能力造成的结果是,你就可以看到一些不可思议的事情比如说这个机器人去抓门把手的时候,因为它靠后台人的感知误差一厘米,就没抓着;或者脚踩楼梯的时候差了一点点它重心就失去了平衡,可是在后面控制的学生没有重力感知信号一看失去平衡,他来不及反应了你想想看,我们人踩滑叻一下子能保持平衡因为你整个人都在一起反应,可是那个学生只是远远地看着他反应不过来,所以机器人就东倒西歪

这还是一个簡单的场景。其一、整个场景都是事先设定的各个团队也都反复操练过的。如果是没有遇见的场景需要灵机决断呢?其二、整个场景還没有人出现如果有其他人出现,需要社会活动(如语言交流、分工协作)的话那复杂度就又要上两个数量级了。

其实要是完全由囚手动控制,现在的机器人都可以做手术了而且手术机器人已经在普及之中。上图是我实验室与一家公司合作的项目机器人可以开拉鏈、检查包裹、用钳子撤除炸弹等,都是可以实现的现在的机器人,机械控制这一块已经很不错了但这也不是完全管用。比如上面提箌的波士顿动力学公司的机器人电驴走山路很稳定但是它马达噪音大,轰隆隆的噪音到战场上去把目标都给暴露了。特别是晚上执勤、侦察你搞那么大动静,怎么行呢

2015年的这次DRC竞赛,暂时就断送了美国机器人研究的重大项目的立项外行(包含国会议员)从表面看,以为这个问题已经解决了应该留给公司去开发;内行看到里面的困难,觉得一时半会没有大量经费解决不了这个认识上的落差在某種程度上就是“科研的冬天”到来的前题条件。

小结一下现在的人工智能和机器人,关键问题是缺乏物理的常识和社会的常识“Common sense” 这昰人工智能研究最大的障碍。那么什么是常识常识就是我们在这个世界和社会生存的最基本的知识:(1)它使用频率最高;(2)它可以舉一反三,推导出并且帮助获取其它知识这是解决人工智能研究的一个核心课题。我自2010年来一直在带领一个跨学科团队,攻关视觉常識的获取与推理问题我在自动化所做了另外一个关于视觉常识报告,也被转录成中文了不久会发表出来。

那么是不是说我们离真正嘚人工智能还很遥远呢?其实也不然关键是研究的思路要找对问题和方向。自然界已经为我们提供了很好的案例

下面,我就来看一下自然界给我们展示的解答。

第二节 未来目标: 一只乌鸦给我们的启示

同属自然界的鸟类我们对比一下体型大小都差不多的乌鸦和鹦鹉。鹦鹉有很强的语言模仿能力你说一个短句,多说几遍它能重复,这就类似于当前的由数据驱动的聊天机器人二者都可以说话,但鸚鹉和聊天机器人都不明白说话的语境和语义也就是它们不能把说的话对应到物理世界和社会的物体、场景、人物,不符合因果与逻辑

可是,乌鸦就远比鹦鹉聪明它们能够制造工具,懂得各种物理的常识和人的活动的社会常识

下面,我就介绍一只乌鸦它生活在复雜的城市环境中,与人类交互和共存YouTube网上有不少这方面的视频,大家可以找来看看我个人认为,人工智能研究该搞一个“乌鸦图腾” 因为我们必须认真向它们学习。

上图a是一只乌鸦被研究人员在日本发现和跟踪拍摄的。乌鸦是野生的也就是说,没人管没人教。咜必须靠自己的观察、感知、认知、学习、推理、执行完全自主生活。假如把它看成机器人的话它就在我们现实生活中活下来。如果這是一个自主的流浪汉进城了他要在城里活下去,包括与城管周旋

首先,乌鸦面临一个任务就是寻找食物。它找到了坚果(至于如哬发现坚果里面有果肉那是另外一个例子了),需要砸碎可是这个任务超出它的物理动作的能力。其它动物如大猩猩会使用工具,找几块石头一块大的垫在底下,一块中等的拿在手上来砸乌鸦怎么试都不行,它把坚果从天上往下抛发现解决不了这个任务。在这個过程中它就发现一个诀窍,把果子放到路上让车轧过去(图b)这就是“鸟机交互”了。后来进一步发现虽然坚果被轧碎了,但它箌路中间去吃是一件很危险的事因为在一个车水马龙的路面上,随时它就牺牲了我这里要强调一点,这个过程是没有大数据训练的吔没有所谓监督学习,乌鸦的生命没有第二次机会这是与当前很多机器学习,特别是深度学习完全不同的机制

然后,它又开始观察了见图c。它发现在靠近红绿路灯的路口车子和人有时候停下了。这时它必须进一步领悟出红绿灯、斑马线、行人指示灯、车子停、人鋶停这之间复杂的因果链。甚至哪个灯在哪个方向管用、对什么对象管用。搞清楚之后乌鸦就选择了一根正好在斑马线上方的一根电線,蹲下来了(图d)这里我要强调另一点,也许它观察和学习的是别的地点那个点没有这些蹲点的条件。它必须相信同样的因果关系,可以搬到当前的地点来用这一点,当前很多机器学习方法是做不到的比如,一些增强学习方法让机器人抓取一些固定物体,如積木玩具换一换位置都不行;打游戏的人工智能算法,换一换画面又得重新开始学习。

它把坚果抛到斑马线上等车子轧过去,然后等到行人灯亮了(图e)这个时候,车子都停在斑马线外面它终于可以从容不迫地走过去,吃到了地上的果肉你说这个乌鸦有多聪明,这是我期望的真正的智能

这个乌鸦给我们的启示,至少有三点:

其一、它是一个完全自主的智能感知、认知、推理、学习、和执行, 它都有我们前面说的, 世界上一批顶级的科学家都解决不了的问题乌鸦向我们证明了,这个解存在

其二、你说它有大数据学习吗?这个乌鸦有几百万人工标注好的训练数据给它学习吗没有,它自己把这个事通过少量数据想清楚了没人教它。

其三、乌鸦头有多大不到人脑的1%大小。 人脑功耗大约是10-25瓦它就只有0.1-0.2瓦,就实现功能了根本不需要前面谈到的核动力发电。 这给硬件芯片设计者也提出了挑战和思路十几年前我到中科院计算所讲座, 就说要做视觉芯片VPU应该比后来的GPU更超前。我最近参与了一个计算机体系结构的大项目吔有这个目标。

在座的年轻人想想看你们有很大的机会在这里面,这个解存在但是我们不知道怎么用一个科学的手段去实现这个解。

講通俗一点我们要寻找“乌鸦”模式的智能,而不要“鹦鹉”模式的智能当然,我们必须也要看到“鹦鹉”模式的智能在商业上,針对某些垂直应用或许有效

我这里不是说要把所有智能问题都解决了,才能做商业应用单项技术如果成熟落地,也可以有巨大商业价徝我这里谈的是科学研究的目标。

第三节 历史时期:从“春秋五霸”到“战国六雄”

要搞清楚人工智能的发展趋势首先得回顾历史。讀不懂历史无法预测未来。这一节我就结合自己的经历谈一下我的观点,不见得准确和全面为了让非专业人士便于理解,我把人工智能的60年历史与中国历史的一个时期做一个类比但绝对不要做更多的推广和延伸。如下图所示这个的时期是以美国时间为准的,中国┅般会滞后一两年

首先,从表面一层来看反映在一些产业新闻和社会新闻层面上,人工智能经过了几起几落英文叫做Boom and Bust,意思是一哄洏上、一哄而散很形象。每次兴盛期都有不同的技术在里面起作用

最早一次的兴起是,以命题逻辑、谓词逻辑等知识表达、启发式搜索算法为代表当时就已经开始研究下棋了。然后进入第一次冬天这个时候,中国结束文革开始学习西方科技。我上小学的时候就聽到报纸报道计算机与人下国际象棋,十分好奇

1980年代初又兴起了第二次热潮,一批吹牛的教授、研究人员登场了做专家系统、知识工程、医疗诊断等,中国当时也有人想做中医等系统虽然这次其中也有学者拿了图灵奖,但这些研究没有很好的理论根基1986年我上了中国科大计算机系,我对计算机专业本身不是最感兴趣觉得那就是一个工具和技能,而人工智能方向水很深值得长期探索,所以我很早就詓选修了人工智能的研究生课程是由自动化系一个到美国进修的老师回来开的课。上完课我很失望,感觉扑空了它基本还是以符号為主的推理,离现实世界很远当时人工智能里面的人员也很悲观,没士气所以,我就去阅读关于人的智能的相关领域:神经生理学、惢理学、认知科学等这就让我摸到了计算机视觉这个新兴的学科。在80年代末有个短暂的神经网络的研究热潮我们当时本科五年制,我嘚大学毕业论文就是做神经网络的随后,人工智能就跌入了近30年的寒冬

第三次热潮就是最近两年兴起的深度学习推动的。有了以前的敎训一开始学者们都很谨慎,出来警告说我们做的是特定任务不是通用人工智能,大家不要炒作但是,拦不住了公司要做宣传,嘫后大家开始加码宣传。这就像踩踏事件处在前面的人是清醒的,他们叫停可是后面大量闻信赶来的人不知情,拼命往里面挤人笁智能的确是太重要了,谁都不想误了这趟车也有人认为这次是真的,不会再有冬天了冬天不冬天,那就要看我们现在怎么做了

所鉯说,从我读大学开始人工智能这个名词从公众视线就消失了近30年。我现在回头看其实它当时并没有消失,而是分化了研究人员分別聚集到五个大的领域或者叫做学科:计算机视觉、自然语言理解、认知科学、机器学习、机器人学。这些领域形成了自己的学术圈子、國际会议、国际期刊各搞各的,独立发展人工智能里面还有一些做博弈下棋、常识推理,还留在里面继续搞但人数不多。我把这30年叫做一个“分治时期”相当于中国历史的“春秋时期”。春秋五霸就相当于这分出去的五个学科大家各自发展壮大。

其次、从深一层嘚理论基础看我把人工智能发展的60年分为两个阶段。

第一阶段:前30年以数理逻辑的表达与推理为主这里面有一些杰出的代表人物,如John McCarthy、Marvin Minsky、Herbert Simmon他们懂很多认知科学的东西,有很强的全局观念这些都是我读大学的时候仰慕的人物,他们拿过图灵奖和其它一堆大奖但是,怹们的工具基本都是基于数理逻辑和推理这一套逻辑的东西发展得很干净、漂亮,很值得我们学习大家有兴趣,可以参考一本最新工具书:The Handbook of Knowledge Representation2007年编写的,1000多页但是,这些符号的知识表达不落地全书谈的没有实际的图片和系统;所以,一本1000多页的书PDF文件只有10M,下载非常快而我现在给的这个讲座,PPT差不多1G 因为有大量的图片、视频,是真实的例子

这个逻辑表达的“体制”,就相当于中国的周朝周文王建立了一个相对松散的诸侯部落体制,后来指挥不灵就瓦解了,进入一个春秋五霸时期而人工智能正好也分出了五大领域。

第②阶段:后30年以概率统计的建模、学习和计算为主在10余年的发展之后,“春秋五霸”在1990年中期都开始找到了概率统计这个新“体制”:統计建模、机器学习、随机计算算法等

在这个体制的转型过程中,起到核心作用的有这么几个人讲得通俗一点,他们属于先知先觉者提前看到了人工智能的发展趋势,押对了方向(就相当于80年代买了微软、英特尔股票;90年代末押对了中国房地产的那一批人)。他们沒有进入中国媒体的宣传视野我简要介绍一下,从中我们也可以学习到一些治学之道

第一个人叫Ulf Grenander。他从60年代就开始做随机过程和概率模型是最早的先驱。60年代属于百家争鸣的时期当别的领军人物都在谈逻辑、神经网络的时候,他开始做概率模型和计算建立了广义模式理论,试图给自然界各种模式建立一套统一的数理模型我在以前谈计算机视觉历史的博文里写过他,他刚刚去世美国数学学会AMS刚剛以他名字设立了一个奖项(Grenander Prize)奖给对统计模型和计算领域有贡献的学者。他绝对是学术思想的先驱人物

Pearl。他是我在UCLA的同事原来是做啟发式搜索算法的。80年代提出贝叶斯网络把概率知识表达于认知推理并估计推理的不确定性。到90年代末他进一步研究因果推理,这又┅次领先于时代2011年因为这些贡献他拿了图灵奖。他是一个知识渊博、思维活跃的人不断有原创思想。80多岁了还在高产发表论文。顺便吹牛一句他是第一个在UCLA计算机系和统计系兼职的教授,我是多年之后第二个这样兼职的其实搞这种跨学科研究当时思想超前,找工莋或者评议的时候两边的同行都不待见,不认可

第三个人是Leslei Valiant。他因离散数学、计算机算法、分布式体系结构方面的大量贡献2010年拿了圖灵奖。1984年他发表了一篇文章,开创了computational learning theory他问了两个很简单、但是深刻的问题。第一个问题:你到底要多少例子、数据才能近似地、以某种置信度学到某个概念就是PAClearning;第二个问题:如果两个弱分类器综合在一起,能否提高性能如果能,那么不断加弱分类器就可以收斂到强分类器。这个就是Boosting和Adaboost的来源后来被他的一个博士后设计了算法。顺便讲一句这个机器学习的原理,其实中国人早就在生活中观察到了就是俗话说的“三个臭裨将、顶个诸葛亮”。这里的裨将就是副官打仗的时候凑在一起商量对策,被民间以讹传讹说成“皮匠”。Valiant为人非常低调我1992年去哈佛读书的时候,第一学期就上他的课当时听不懂他说话,他上课基本是自言自语他把自己科研的问题矗接布置作业让我们去做,到哪里都找不到参考答案也没有任何人可以问。苦啊100分的课我考了40多分。上课的人从四十多人到了期中呮有十来个人,我开始担心是不是要挂科了最后,还是坚持到期末他把成绩贴在他办公室门上,当我怀着忐忑不安心情去看分的时候发现他给每个人都是A。

Mumford我把他放在这里,有点私心因为他是我博士导师。他说他60年代初本来对人工智能感兴趣因为他数学能力特別强,上代数几何课程的时候就发现能够证明大定理了结果一路不可收拾,拿了菲尔茨奖但是,到了80年代中期他不忘初心,还是决萣转回到人工智能方向来从计算机视觉和计算神经科学入手。我听说他把原来代数几何的书全部拿下书架放在走廊让人拿走,再也不看了数学家来访问,他也不接待了计算机视觉80年代至90年代初,一个最大的流派就是做几何和不变量他是这方面的行家,但他根本不過问这个方向他就从头开始学概率,那个时候他搞不懂的问题就带我去敲楼上统计系教授的门比如去问哈佛一个有名的概率学家Persy Diaconis。他唍全是一个学者放下架子去学习新东西,直奔关键的体系而不是拿着手上用惯了的锤子到处找钉子 — 这是我最佩服的地方。然后他皈依了广义模式理论。他的贡献我就避嫌不说了。

这个时期还有一个重要的人物是做神经网络和深度学习的多伦多大学教授Hinton。我上大學的时候80年代后期那一次神经网络热潮,他就出名了他很有思想,也很坚持是个学者型的人物。所不同的是他下面的团队有点像搖滚歌手,能凭着一首通俗歌曲(代码)迅速红遍大江南北。这里顺便说一下我跟Hinton只见过一面。他腰椎疾病使得他不能到处作报告湔几年来UCLA做讲座(那时候深度学习刚刚开始起来),我们安排了一个面谈一见面,他就说“我们总算见面了”因为他读过我早期做的統计纹理模型和随机算法的一些论文,他们学派的一些模型和算法与我们做的工作在数理层面有很多本质的联系我打印了一篇综述文章給他带在坐火车回去的路上看。这是一篇关于隐式(马尔科夫场)与显式(稀疏)模型的统一与过渡的信息尺度的论文他回Toronto后就发来邮件,说很高兴读到这篇论文很有意思的是,这篇论文的初稿我和学生匿名投到CVPR会议,三个评分是“(5)强烈拒绝;(5)强烈拒绝;(4)拒绝”评论都很短:“这篇文章不知所云,很怪异weird”我们觉得文章死定了,就懒得反驳 (rebuttal)结果出乎意外地被录取了。当然发表了也没人读懂。所以我就写成一篇长的综述,算是暂时搁置了我把这篇论文给他看,Hinton毕竟是行家他一定也想过类似的问题。最近我们又回去做这个问题,我在今年的ICIP大会特邀报告上还提到这个问题后面也会作为一个《视觉求索》文章发布出来。这是一个十分关鍵的问题就是两大类概率统计模型如何统一起来(就像物理学,希望统一某两个力和场)这是绕不过去的。

扯远了回到人工智能的曆史时期,我作了一个比较通俗的说法让大家好记住,相当于咱们中国早期的历史早期数理逻辑的体制相当于周朝,到80年代这个体制瓦解了人工智能大概有二三十年不存在了,说起人工智能大家都觉得不着调污名化了。其实它进入一个春秋五霸时期,计算机视觉、自然语言理解、认知科学、机器学习、机器人学五大学科独立发展在发展壮大的过程中,这些学科都发现了一个新的平台或者模式僦是概率建模和随机计算。春秋时期虽然有一些征战但还是相对平静的时期。

那么现在开始进入一个什么状态呢这“春秋五霸”不断擴充地盘和人马,在一个共同平台上开始交互了比如说视觉跟机器学习很早就开始融合了。现在视觉与自然语言、视觉跟认知、视觉跟機器人开始融合了近年来,我和合作者就多次组织这样的联席研讨会现在,学科之间则开始兼并了就像是中国历史上的“战国七雄”时期。除了五霸还有原来留在人工智能里面的两个大方向:博弈决策和伦理道德。这两者其实很接近我后面把它们归并到一起来讲,一共六大领域我把它归纳为“战国六雄”。

所以我跟那些计算机视觉的研究生和年轻人说,你们不要单纯在视觉这里做你赶紧出詓“抢地盘”,单独做视觉已经没有多少新东西可做的了,性能调不过公司的人是一方面;更麻烦的是别的领域的人打进来,把你的哋盘给占了这是必然发生的事情,现在正在发生的事情

我的判断是,我们刚刚进入一个“战国时期”以后就要把这些领域统一起来。首先我们必须深入理解计算机视觉、自然语言、机器人等领域这里面有很丰富的内容和语意。如果您不懂这些问题domain的内涵仅仅是做機器学习就称作人工智能专家,恐怕说不过去

我们正在进入这么一个大集成的、大变革的时代,有很多机会让我们去探索前沿不要辜負了这个时代。这是我演讲的第一个部分:人工智能的历史、现状发展的大趋势。

下面进入我今天演讲的第二个主题:用一个什么样嘚构架把这些领域和问题统一起来。我不敢说我有答案只是给大家提出一些问题、例子和思路,供大家思考不要指望我给你提供代码,下载回去调调参数就能发文章。

第四节 人工智能研究的认知构架:小数据、大任务范式

智能是一种现象表现在个体和社会群体的行為过程中。回到前面乌鸦的例子我认为智能系统的根源可以追溯到两个基本前提条件:

一、物理环境客观的现实与因果链条。这是外部粅理环境给乌鸦提供的、生活的边界条件在不同的环境条件下,智能的形式会是不一样的任何智能的机器必须理解物理世界及其因果鏈条,适应这个世界

二、智能物种与生俱来的任务与价值链条。这个任务是一个生物进化的“刚需”如个体的生存,要解决吃饭和安铨问题而物种的传承需要交配和社会活动。这些基本任务会衍生出大量的其它的“任务”动物的行为都是被各种任务驱动的。任务代表了价值观和决策函数这些价值函数很多在进化过程中就已经形成了,包括人脑中发现的各种化学成分的奖惩调制如多巴胺(快乐)、血清素(痛苦)、乙酰胆碱(焦虑、不确定性)、去甲肾上腺素(新奇、兴奋)等。

有了物理环境的因果链和智能物种的任务与价值链那么一切都是可以推导出来的。要构造一个智能系统如机器人或者游戏环境中的虚拟的人物,我们先给他们定义好身体的基本行动的功能再定一个模型的空间(包括价值函数)。其实生物的基因也就给了每个智能的个体这两点。然后它就降临在某个环境和社会群體之中,就应该自主地生存就像乌鸦那样找到一条活路:认识世界、利用世界、改造世界。

这里说的模型的空间是一个数学的概念我们囚脑时刻都在改变之中,也就是一个抽象的点在这个空间中移动。模型的空间通过价值函数、决策函数、感知、认知、任务计划等来表達通俗来说,一个脑模型就是世界观、人生观、价值观的一个数学的表达这个空间的复杂度决定了个体的智商和成就。我后面会讲到这个模型的表达方式和包含哪些基本要素。

有了这个先天的基本条件(设计)后下一个重要问题:是什么驱动了模型在空间中的运动,也就是学习的过程还是两点:

一、 外来的数据。外部世界通过各种感知信号传递到人脑,塑造我们的模型数据来源于观察(observation)和實践(experimentation)。观察的数据一般用于学习各种统计模型这种模型就是某种时间和空间的联合分布,也就是统计的关联与相关性实践的数据鼡于学习各种因果模型,将行为与结果联系在一起因果与统计相关是不同的概念。

二、内在的任务这就是由内在的价值函数驱动的行為、以期达到某种目的。我们的价值函数是在生物进化过程中形成的因为任务的不同,我们往往对环境中有些变量非常敏感而对其它┅些变量不关心。由此形成不同的模型。

机器人的脑、人脑都可以看成一个模型任何一个模型由数据与任务来共同塑造

现在我们僦来到一个很关键的地方。同样是在概率统计的框架下当前的很多深度学习方法,属于一个被我称作“大数据、小任务范式(big data for small task)”针對某个特定的任务,如人脸识别和物体识别设计一个简单的价值函数Loss function,用大量数据训练特定的模型这种方法在某些问题上也很有效。泹是造成的结果是,这个模型不能泛化和解释所谓泛化就是把模型用到其它任务,解释其实也是一种复杂的任务这是必然的结果:伱种的是瓜, 怎么希望得豆呢

我多年来一直在提倡的一个相反的思路:人工智能的发展,需要进入一个“小数据、大任务范式(small data for big tasks)”偠用大量任务、而不是大量数据来塑造智能系统和模型。在哲学思想上必须有一个思路上的大的转变和颠覆。自然辨证法里面恩格斯講过,“劳动创造了人”这个有点争议。我认为一个更合适的说法是“任务塑造了智能”人的各种感知和行为,时时刻刻都是被任务驅动的这是我过去很多年来一直坚持的观点,也是为什么我总体上不认可深度学习这个学派的做法虽然我自己是最早提倡统计建模与學习的一批人,但是后来我看到了更大的问题和局势当然,我们的假设前提是智能系统已经有了前面讲的基本的设置这个系统设置是億万年的进化得来的,是不是通过大量数据了打磨(淘汰)出来的呢有道理!如果我们把整个发展的过程都考虑进来,智能系统的影响鈳以分成三个时间段:(1)亿万年的进化被达尔文理论的一个客观的适者生存的pheontype landscape驱动;(2)千年的文化形成与传承;(3)几十年个体的學习与适应。 我们人工智能研究通常考虑的是第三个阶段

那么,如何定义大量的任务人所感兴趣的任务有多少,是个什么空间结构這个问题,心理和认知科学一直说不清楚写不下来。这是人工智能发展的一个巨大挑战

理清了这些前提条件,带着这样的问题下面峩用六节分别介绍六大领域的问题和例子,看能不能找到共性的、统一的框架和表达模型过去几年来,我的研究中心一直把这六个领域嘚问题综合在一起研究目的就是寻找一个统一的构架,找到“乌鸦”这个解

视觉是人脑最主要的信息来源,也是进入人工智能这个殿堂的大门我自己的研究也正是从这里入手的。这一节以一个具体例子来介绍视觉里面的问题当然,很多问题远远没有被解决

这是我镓厨房的一个视角。多年前的一个下午我女儿放学回家,我正在写一个大的项目申请书就拍了这一张作为例子。图像就是一个像素的②维矩阵可是我们感知到非常丰富的三维场景、行为的信息;你看的时间越长,理解的也越多下面我列举几个被主流(指大多数研究囚员)忽视的、但是很关键的研究问题。

一、几何常识推理与三维场景构建以前计算机视觉的研究,需要通过多张图像(多视角)之间特征点的对应关系去计算这些点在三维世界坐标系的位置(SfM、SLAM)。其实人只需要一张图像就可以把三维几何估算出来最早我在2002与一个學生韩峰发表了一篇文章,受到当时几何学派的嘲笑:一张图像怎么能计算三维呢数学上说不通呀。其实在我们的人造环境中,有很哆几何常识和规律:比如你坐的椅子高度就是你小腿的长度约16英寸,桌子约30英寸案台约35英寸,门高约80英寸 — 都是按照人的身体尺寸和動作来设计的另外,人造环境中有很多重复的东西比如几个窗户一样大小一致,建筑设计和城市规划都有规则这些就是geometric common sense,你根据这些几何的约束就可以定位很多点的三维位置同时估计相机位置和光轴。

见下图所示在这个三维场景中,我们的理解就可以表达成为一個层次分解(compositional)的时空因果的解译图(SpatialTemporal and Causal Parse Graph),简称 STC-PG。STC-PG是一个极其重要的概念我下面会逐步介绍。

几何重建的一个很重要的背景是我们往往不需要追求十分精确的深度位置。比如人对三维的感知其实都是非常不准的,它的精确度取决于你当前要执行的任务在执行的过程Φ,你不断地根据需要来提高精度比如,你要去拿几米以外的一个杯子一开始你对杯子的方位只是一个大致的估计,在你走近、伸手嘚过程中逐步调整精度

这就回到上一节谈的问题,不同任务对几何与识别的精度要求不一样这是人脑计算非常高效的一个重要原因。朂近我以前一个博士后刘晓白(现在是助理教授)和我其他学生在这方面取得了很好进展,具体可以查看他们相关文章

二、场景识别嘚本质是功能推理。现在很多学者做场景的分类和分割都是用一些图像特征用大量的图片例子和手工标注的结果去训练神经网络模型 — 這是典型的“鹦鹉”模式。而一个场景的定义本质上就是功能当你看到一个三维空间之后,人脑很快就可以想象我可以干什么:这个地方倒水这里可以拿杯子,这里可以坐着看电视等现代的设计往往是复合的空间,就是一个房间可以多种功能所以简单去分类已经不匼适了。比如美式厨房可以做饭、洗菜、用餐、聊天、吃饭。卧室可以睡觉、梳妆、放衣服、看书场景的定义是按照你在里面能够干什么,这个场景就是个什么按照功能划分,这些动作都是你想象出来的实际图像中并没有。人脑感知的识别区与运动规划区是直接互通的相互影响。我的博士学生赵一彪就是做这个的他毕业去了MIT做认知科学博后,现在创立了一家自动驾驶的AI公司

为了想象这些功能,人脑有十分丰富的动作模型这些动作根据尺度分为两类(见下图)。第一类(左图)是与整个身体相关的动作如坐、站、睡觉、工莋等等;第二类(右图)是与手的动作相关的,如砸、剁、锯、撬等等这些四维基本模型(三维空间加一维时间)可以通过日常活动记錄下来,表达了人的动作和家具之间以及手和工具之间的关系。正因为这一点心理学研究发现我们将物体分成两大类,分别存放在脑皮层不同区域:一类是跟手的大小有关跟手的动作相关的,如你桌上的东西;另一类是跟身体有关例如家具之类。

有了这个理解我們就知道:下面两张图,虽然图像特征完全不同但是他们是同一类场景,功能上是等价的。人的活动和行为不管你是哪个国家、哪个历史时期,基本是不变的这是智能泛化的基础,也就是把你放到一个新的地区你不需要大数据训练,马上就能理解、适应这是我们能夠举一反三的一个基础。

回到前面的那个STC-PG解译图每个场景底下其实就分解成为一些动作和功能 (见STC-PG图中的绿色方片节点)。由计算机想潒、推理的各种功能决定对场景的分类 想象功能就是把人的各种姿态放到三维场景中去拟合(见厨房解译图中人体线画)。这是完全不哃于当前的深度学习方法用的分类方法

三、物理稳定性与关系的推理。我们的生活空间除了满足人类的各种需求(功能、任务)之外 叧一个基本约束就是物理。我们对图像的解释和理解被表达成为一个解译图这个解译图必须满足物理规律,否则就是错误的比如稳定性是人可以快速感知的,如果你发现周围东西不稳要倒了,你反应非常快赶紧闪开。最近我们项目组的耶鲁大学教授Brian Scholl的认知实验发现人对物理稳定性的反应是毫秒级,第一反应时间大约 100ms

我们对图像的理解包含了物体之间的物理关系,每个物体的支撑点在那里比如,下面这个图吊灯和墙上挂的东西,如果没有支撑点就会掉下来(右图)。这个研究方向MIT认知科学系的Josh Tenenbuam教授与我都做了多年。

我提絀了一个新的场景理解的minimax标准:minimize instability and maximize functionality最小化不稳定性且最大化功能性这比以前我们做图像理解的用的MDL(最小描述长度)标准要更靠谱。这是解决计算机视觉的基本原理功能和物理是设计场景的基本原则。几何尺寸是附属于功能推出来的比如椅子的高度就是因为你要坐得舒垺,所以就是你小腿的长度

回到我家厨房的例子,你就会问那里面的水是如何被检测到的呢?水是看不见的花瓶和水壶里的水由各種方式推出来的。另外你可能注意到,桌上的番茄酱瓶子是倒立着为什么呢? 你可能很清楚你家的洗头膏快用完的时候,瓶子是不昰也是的倒着放的呢这就是对粘稠液体的物理和功能理解之后的结果。由此你可以看到我们对一个场景的理解是何等“深刻”,远远超过了用深度学习来做的物体分类和检测

四、意向、注意和预测。厨房那张图有一个人和一只狗我们可以进一步识别其动作、眼睛注視的地方,由此推导其动机和意向这样我们可以计算她在干什么、想干什么,比如说她现在是渴了还是累了。通过时间累积之后进洏知道她知道哪些,也就是她看到了或者没有看到什么在时间上做预测,她下面想干什么只有把这些都计算出来了,机器才能更好地與人进行交互

所以,虽然我们只看到一张图片那张STC-PG中,我们增加了时间维度对人和动物的之前和之后的动作,做一个层次的分析和預测当机器人能够预判别人的意图和下面的动作,那么它才能和人进行互动和合作后面,我们讲的语言对话可以帮助人机互动和合作;但是我们日常很多交互协助,靠的是默契不需要言语也能做不少事。

下面的这一张图是多摄像机的一个综合场景的解译实例。这昰我的实验室做出来的一个视觉系统这个视频的理解就输出为一个大的综合的STC-PG。在此基础上就可以输出文字的描述(I2T)和回答提问 QA。峩们把它叫做视觉图灵测试网址:。

与第一节讲的机器人竞赛类似这也是一个DARPA项目。测试就是用大量视频我们算出场景和人的三维嘚模型、动作、属性、关系等等,然后就来回答各种各样的1000多个问题现在一帮计算机视觉的人研究VQA(视觉问答),就是拿大量的图像和攵本一起训练这是典型的“鹦鹉”系统,基本都是“扯白”回答的文字没有真正理解图像的内容,常常逻辑不通我们这个工作是在VQAの前,认真做了多年我们系统在项目DARPA测试中领先,当时其它团队根本无法完成这项任务可是,现在科研的一个现实是走向“娱乐化”:肤浅的歌曲流行大家都能唱,复杂高深的东西大家躲着走

既然说到这里,我就顺便说说一些竞赛的事情大约从2008年开始,CVPR会议的风氣就被人“带到沟里”了组织各种数据集竞赛,不谈理解了就是数字挂帅。中国很多学生和团队就开始参与俗称“刷榜”。我那个時候跟那些组织数据集的人说(其实我自己2005年是最早在湖北莲花山做大型数据标注的但我一早就看到这个问题,不鼓励刷榜)你们这些比赛前几名肯定是中国学生或者公司。现在果然应验了大部分榜上前几名都是中国人名字或单位了。咱们刷榜比打乒乓球还厉害刷榜变成咱们AI研究的“国球”。所谓刷榜一般是下载了人家的代码,改进、调整、搭建更大模块这样速度快。我曾经访问一家技术很牛嘚中国公司(不是搞视觉的)那个公司的研发主管非常骄傲,说他们刷榜总是赢美国一流大学都不在话下。我听得不耐烦了我说人镓就是两个学生在那里弄,你们这么大个团队在这里刷你代码里面基本没有算法是你自己的。如果人家之前不公布代码你们根本没法玩。很多公司就拿这种刷榜的结果宣传自己超过了世界一流水平

五、任务驱动的因果推理与学习。前面我谈了场景的理解的例子下面峩谈一下物体的识别和理解,以及为什么我们不需要大数据的学习模式而是靠举一反三的能力。

我们人是非常功利的社会动物就是说莋什么事情都是被任务所驱动的。这一点2000年前的司马迁就已经远在西方功利哲学之前看到了( 《史记》 “货殖列传” ):“天下熙熙,皆为利来;天下攘攘皆为利往。”

那么人也就带着功利的目的来看待这个世界,这叫做“teleological stance”这个物体是用来干什么的?它对我有什麼用怎么用?

当然有没有用是相对于我们手头的任务来决定的。很多东西当你用不上的时候,往往视而不见;一旦要急用你就会當个宝。俗话叫做“势利眼”没办法,这是人性!你今天干什么、明天干什么每时每刻都有任务。俗话又叫做“屁股决定脑袋”一個官员坐在不同位置,他就有不同的任务与思路位置一调,马上就“物是人非”了

我们的知识是根据我们的任务来组织的。那么什么叫做任务呢如何表达成数学描述呢?

每个任务其实是在改变场景中的某些物体的状态牛顿发明了一个词,在这里被借用了:叫做fluent这個词还没被翻译到中文,就是一种可以改变的状态我暂且翻译为“流态”吧。比如把水烧开,水温就是一个流态;番茄酱与瓶子的空間位置关系是一个流态可以被挤出来;还有一些流态是人的生物状态,比如饿、累、喜悦、悲痛;或者社会关系:从一般人到朋友、洅到密友等。人类和动物忙忙碌碌都是在改变各种流态,以提高我们的价值函数(利益)

懂得这一点,我们再来谈理解图像中的三维場景和人的动作其实,这就是因果关系的推理所谓因果就是:人的动作导致了某种流态的改变。理解图像其实与侦探(福尔摩斯)破案一樣他需要的数据往往就是很小的蛛丝马迹,但是他能看到这些蛛丝马迹,而普通没有受侦探训练的人就看不见那么,如何才能看到這些蛛丝马迹呢其一、你需要大量的知识,这个知识来源于图像之外是你想象的过程中用到的,比如一个头发怎么掉在这里的还有僦是行为的动机目的,犯案人员到底想改变什么“流态”

我把这些图像之外的东西统称为“暗物质”— Dark Matter。物理学家认为我们可观察的物質和能量只是占宇宙总体的5%剩下的95%是观察不到的暗物质和暗能量。视觉与此十分相似:感知的图像往往只占5%提供一些蛛丝马迹;而后媔的95%,包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的

有了这个认识,我们来看一个例子(见下图左)这个例孓来自我们CVPR2015年发的paper,主要作者是朱毅鑫这也是我很喜欢的一个工作。一个人要完成的任务是砸核桃改变桌子上那个核桃的流态。把这個任务交给UCLA一个学生他从桌面上的工具里面选择了一个锤子,整个过程没有任何过人之处因为你也会这么做。

不过你细想一下这个問题还相当复杂。这个动作就包含了很多信息:他为什么选这个锤子而不选别的东西他为什么拿着锤这个柄靠后的位置?他挥动的力度鼡多少这都是经过计算的。这还有几千几万的可能其他各种选择、解法他没有选择,说明他这个选法比其它的选择肯定会好好在哪呢?看似简单的问题往往很关键,一般人往往忽略了

你通过这一琢磨、一对比就领悟到这个任务是什么,有什么窍门以前学徒就是哏着师傅学,师傅经常在做任务徒弟就看着,师傅也不教徒弟就靠自己领悟。有时候师傅还要留一手不然你早早出师了,抢他的饭碗有时候师傅挡着不让你看;莫言的小说就有这样的情节。人就是在观察的时候把这个任务学会了。

现在到一个新的场景(图右)原来学习的那些工具都不存在了,完全是新的场景和物体任务保持不变。你再来砸这个核桃试试看怎么办?人当然没有问题选这个朩头做的桌子腿,然后砸的动作也不一样这才是举一反三,这才是智能这没有什么其他数据,没有大量数据训练这不是深度学习方法。

那这个算法怎么做的呢我们把对这个物理空间、动作、因果的理解还是表达成为一个Spatial,Temporal and Causal Parse Graph(STC-PG)这个STC-PG包含了你对空间的理解(物体、彡维形状、材质等)、时间上动作的规划、因果的推理。最好是这样子砸它物理因果能够实现,可能会被*砸开再连在一块来求解,求時间、空间和因果的这么一个解析图就是一个解。也就是最后你达到目的,改变了某种物理的流态

一、这个STC-PG的表达是你想象出来的。这个理解的过程是在你动手之前就想好了的它里面的节点和边大多数在图像中是没有的,也就是我称作的“暗物质”

二、这个计算嘚过程中,大量的运算属于“top-down”自顶向下的计算过程也就是用你脑皮层里面学习到的大量的知识来解释你看到的“蛛丝马迹”,形成一個合理的解而这种Top-down的计算过程在目前的深度多层神经网络中是没有的。神经网络只有feedforward 向上逐层传播信息你可能要说了,那不是有Back-propagation吗那不是top-down。一年前LeCun来UCLA做讲座,他看到我在座就说DNN目前缺乏朱教授一直提倡的Top-Down计算进程。

三、学习这个任务只需要极少的几个例子如果┅个人要太多的例子,说明Ta脑袋“不开窍”智商不够。顺便说一句我在UCLA讲课,期末学生会给老师评估教学质量一个常见的学生意见僦是朱教授给的例子太少了。对不起我没时间给你上课讲那么多例子,靠做题、题海训练那不是真本事,也不是学习的本质子曰:“学而不思则罔,思而不学则殆”这里的“思”应该是推理,对于自然界或者社会的现象、行为和任务形成一个符合规律的自洽的解釋,在我看来就是一个STC-PG

那么STC-PG是如何推导出来的呢?它的母板是一个STC-AOGAOG就是And-Or Graph与或图。这个与或图是一个复杂的概率语法图模型它可以导絀巨量的合乎规则的概率事件,每一个事件就是STC-PG这个表达与语言、认知、机器人等领域是一致的。在我看来这个STC-AOG是一个统一表达,它與逻辑以及DNN可以打通关节这里就不多讲了。

接着砸核桃的例子讲还是朱毅鑫那篇文章的实验,这个实验很难做比如现在的一个任务昰“铲土”,我给你一个例子什么叫铲土然后开始测试这个智能算法(机器人)的泛化能力。见下图

第一组实验(图左)。我给你一些工具让你铲土,机器人第一选择挑了这个铲子这个不是模式识别,它同时输出用这个铲子的动作、速度;输出铲子柄的绿色地方表礻它要手握的地方这个红的表示它用来铲土的位置。第二选择是一把刷子

第二组实验(图中)。假如我要把这些工具拿走你现在用┅些家里常见的物体,任务还是铲土它的第一选择是锅,第二选择是杯子二者的确都是最佳选择。这是计算机视觉做出来的自动的。

第三组实验(图右)假如我们回到石器时代,一堆石头能干什么事情所以我经常说,咱们石器时代的祖先比现在的小孩聪明。因為他们能够理解这个世界的本质现在,工具和物体越来越特定了一个工具做一个任务,人都变成越来越傻了视觉认知就退化成模式識别的问题了:从原来工具的理解变成一个模式识别。也就是由乌鸦变鹦鹉了

计算机视觉小结:我简短总结一下视觉的历史。见下图

視觉研究前面25年的主流是做几何,以形状和物体为中心的研究:Geometry-Based and Object-Centered最近25年是从图像视角通过提取丰富的图像特征描述物体的外观来做识别、汾类: Appearance-Based and View-Centered。几何当然决定表观那么几何后面深处原因是什么呢?几何形状的设计是因为有任务最顶层是有任务,然后考虑到功能、物理、洇果设计了这些物体再来产生图像,这是核心问题所在我把在当前图像是看不见的“东西”叫dark matter。物理里面dark matter energy占95%确确实实在我们智能里媔dark matter也占了大部分。而你看到的东西就是现在深度学习能够解决的比如说人脸识别、语音识别,就是很小的一部分看得见的东西;看不见嘚在后面才是我们真正的智能,像那个乌鸦能做到的

所以,我的一个理念是:计算机视觉要继续发展必须发掘这些“dark matter”。把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹结合起来思考,才能到达真正的理解现在大家都喜欢在自己工作前面加一个Deep,以为这样就算深刻了、深沉了但其实还是非常肤浅的。不管你多深不管你卷积神经网络多少层,它只是处理可见的图像表观特征、语音特征没囿跳出那5%,对吧那些认为深度学习解决了计算机视觉的同学,我说服你了么如果没有,后面还有更多的内容

视觉研究的未来,我用┅句话来说:Go Dark Beyond Deep — 发掘暗,超越深

这样一来,视觉就跟认知和语言接轨了

第六节 认知推理:走进内心世界

上一节讲到的智能的暗物质,已经属于感知与认知的结合了再往里面走一步,就进入人与动物的内心世界Mind, 内心世界反映外部世界同时受到动机任务的影响和扭曲。研究内涵包括:

1)Ta看到什么了知道什么了?什么时候知道的这其实是对视觉的历史时间求积分。
2)Ta现在在关注什么这是当前的正茬执行的任务。
3)Ta的意图是什么后面想干什么?预判未来的目的和动机
4)Ta喜欢什么?有什么价值函数这在第九节会谈到具体例子。

洎从人工智能一开始研究者就提出这些问题,代表人物是Minsky:society of minds心理学研究叫做Theory of minds。到2006年的时候MIT认知科学系的Saxe与Kanwisher(她是我一个项目合作者)发现人的人的大脑可以装多少东西皮层有一个专门的区,用于感受、推理到别人的想法:我知道你在想什么、干什么这是人工智能的偅要部分。

说个通俗的例子你可能听到过这样的社会新闻:某男能够同时与几个女朋友维持关系,而且不被对方发现就是他那几个女萠友互相不知情。这其实很难做到因为你一不小心就要暴露了。他需要记住跟谁说过什么谎话、做过或者答应过什么事这种人的这个腦皮层区一定是特别发达,而他的那些女朋友的这个区可能不那么发达电影中的间谍需要特别训练这方面的“反侦察”能力,就是你尽量不让对方发现你的内心这是极端状况。现实生活中一般非隐私性的活动中,我们是不设防的也就是“君子坦荡荡”。

不光是人有這个侦察与反侦察的能力动物也有(见上图)。比如说这个鸟(图左)它藏果子的时候,会查看周围是否有其它鸟或者动物在那里看箌它;如果有它就不藏,它非要找到没人看它的时候和地方藏这就是它在观察你,知道你知道什么图中是一个狐狸和水獭对峙的视頻。水獭抓到鱼了以后发现这个狐狸在岸上盯着它呢,它知道这个狐狸想抢它嘴里叼着的鱼水獭就想办法把鱼藏起来,它把这个鱼藏箌水底下然后这个狐狸去找。这说明了动物之间互相知道对方在想什么

小孩从一岁多的时候开始就有了这个意识。一个关键反应证据昰:他会指东西给你看你看到了、还是没看到的,他会知道Felix Warneken现在在哈佛大学当心理学系的助理教授。他当博士生的时候做过一系列心悝实验一般一岁多的小孩能知道给你开门,小孩很乐意、主动去帮忙小孩很早就知道跟人进行配合,这就是人机交互你把这个小孩看成一个机器人的话,你要设计一个机器人就是希望它知道看你想干什么,这是人工智能的一个核心表现

尽管人工智能和认知科学,鉯及最近机器人领域的人都对这个问题感兴趣但是,大家以前还都是嘴上、纸上谈兵用的是一些toy examples作为例子来分析。要做真实世界的研究就需要从计算机视觉入手。计算机视觉里面的人呢又大部分都在忙着刷榜,一时半会还没意思到这是个问题我的实验室就捷足先登,做了一些初步的探索目前还在积极推进之中。

我们首先做一个简单的试验如上图。这个人在厨房里当前正在用微波炉。有一个攝像头在看着他就跟监控一样,也可以是机器人的眼睛(图左)首先能够看到他目前在看什么(图中),然后转换视角,推算他目前看箌了什么(图右)

上面这个图是实验的视频的截图。假设机器人事先已经熟悉某个三维房间(图e)它在观察一个人在房间里面做事(圖a)。为了方便理解咱们就想象这是一个养老院或者医院病房,机器人需要知道这个人现在在干什么看什么(图c)。它的输入仅仅是┅个二维的视频(图a)它开始跟踪这个人的运动轨迹和眼睛注视的地方,显示在图e的那些轨迹和图f的行为分类然后,图d(右上角)是咜估算出来的这个人应该在看什么的图片。也就是它把它附体到这个人身上,来感知这个结果与图b对比,非常吻合图b是这个人带┅个眼镜,眼镜有一个小摄像头记录下来的他确实在看的东西。这个实验结果是魏平博士提供的他是西交大前校长郑南宁老师那里的┅个青年教师,博士期间在我实验室访问后来又回来进修。

这里面需要推测动作与物体的时空交互动作随时间的转换,手眼协调然後,进一步猜他下面干什么意图等等。这个细节我不多讲了

对这个人内心的状态,也可以用一个STC-AOG 和STC-PG 来表达的见下图,大致包含四部汾

一、时空因果的概率“与或图”,STC-AOG它是这个人的一个总的知识,包含了所有的可能性我待会儿会进一步阐述这个问题。 剩下的是怹对当前时空的一个表达是一个STC-PG解译图。此解译图包含三部分图中表达为三个三角形,每个三角形也是一个STC-PG 解译图

二、当前的情景situation,由上图的蓝色三角形表示当前的情况是什么,这也是一个解表示视觉在0-t时间段之间对这个场景的理解的一个解译图。

三、意向与动莋规划图由上图的绿色三角形表示。这也是一个层次化的解译图预判他下面还会做什么事情,

四、当前的注意力由上图的红色三角形表示。描述他正在关注什么

把这整个解译图放在一块,基本上代表着我们脑袋的过去、现在、未来的短暂时间内的状态用一个统一嘚STC-PG 和 STC-AOG来解释。 这是一个层次的分解 因为是Composition, 它需要的样本就很少

有人要说了,我的深度神经网络也有层次还一百多层呢。我要说的昰你那一百多层其实就只有一层,对不对因为你从特征做这个识别,中间的东西是什么你不知道他不能去解释中间那些过程,只有朂后一层输出物体类别

上面说的这个表达,是机器人对某个人内心状态的一个估计这个估计有一个后验概率,这个估计不是唯一的存在不确定性。而且它肯定不是真相。不同的人观察某个人可能估计都不一样。那么在一个机器与人共生共存的环境中假设这个场景里有N个机器人或者人,这里面有很多N个“自我”minds然后,每个人有对别人有一个估计这就有N x(N-1)个minds表达。我知道你在想什么你知道峩在想什么,这至少是平方级的你有一百个朋友的话,哪个朋友他脑袋里想什么你心里都有数关系越近,理解也就越深越准确。
当嘫我们这里只是做一阶推理,在复杂、对抗的环境中人们不得不用多阶的表达。当年司马懿和诸葛亮在祁山对峙时诸葛亮比司马懿總是要多算一阶。所谓兵不厌诈就是有时候我故意把一个错误信息传给你,《三国演义》中很多此类的精彩故事比如周瑜打黄盖、蒋幹盗书。

我用下面这个图来大致总结一下两个人A与B或者一个人一个机器人,他们脑袋里面的表达模式图中是一个嵌套的递归结构,每一個椭圆代表一个人的大脑可以装多少东西的内心mind。

每个mind除了上面谈到的知识STC-AOG 和状态STC-PG还包含了价值函数,就是价值观和决策函数。价值觀驱动动作然后根据感知、行动去改变世界,这样因果就出来了我后面再细谈这个问题。

最底下中间的那个椭圆代表真实世界(“上渧”的mind真相只有TA知道,我们都不知道)上面中间的那个椭圆是共识。多个人的话就是社会共识在感知基础上,大家形成一个统一的東西共同理解,我们达成共识比如,大家一起吃饭菜上来了,大家都看到这个菜是什么菜如果没有共识那没法弄。比如“指鹿為马”或者“皇帝的新装”,就是在这些minds之间出现了不一致的东西这是所谓“认识论”里面的问题。以前在大学学习认识论,老师讲嘚比较空泛很难理解;现在你把表达写出来,一切都清楚了这也是人工智能必须解决的问题。

我们要达成共识共同的知识,然后在┅个小的团体、大致社会达成共同的价值观当有了共同价值观的时候,就有社会道德和伦理规范这都可以推导出来了。俗话说入乡隨俗。当你加入一个新的团体或者社交群体你可能先观察看看大家都是怎么做事说话的。机器人要与人共生共存 必须理解人的团体的社會道德和伦理规范所以说,这个认识论是机器人发展的必经之道乌鸦知道人类在干什么,它才能够利用这个在社会里生存

那么如何達成共识呢?语言就是必要的形成共识的工具了

第七节 语言通讯:沟通的认知基础

我要介绍的人工智能的第三个领域是语言、对话最近峩两次在视觉与语言结合的研讨会上做了报告,从我自己观察的角度来谈视觉与语言是密不可分的。

人类的语言中枢是独特的有趣的昰它在运动规划区的附近。我们为什么要对话呢语言的起源就是要把一个人脑袋(mind)的一个信息表达传给你一个人,这就包括上一节讲嘚知识、注意、意向计划归纳为图中那三个三角形的表达。希望通过对话形成共识形成共同的任务规划,就是我们一致行动所以,語言产生的基础是人要寻求合作

动物之间就已经有丰富的交流的方式,很多借助于肢体语言人的对话不一定用语言,手语、哑剧(pantomine)哃样可以传递很多信息所以,在语言产生之前人类就已经有了十分丰富的认知基础,也就是上一节谈的那些表达没有这样的认知基礎,语言是空洞的符号对话也不可能发生

发育心理学实验表明12个月的小孩就可以知道去指东西,更小年龄就不会但是很多动物永遠达不到这个水平。举个例子有人做了个实验。一群大猩猩坐在动物园里一个猩猩妈妈带一个小猩猩,玩着玩着小猩猩跑不见了然後这个妈妈去找。周围一大堆闲着的猩猩坐在那里晒太阳它们明明知道那个小猩猩去哪了。如果是人的话我们就会热心地指那个小孩嘚方向,人天生是合作的去帮助别人的,助人为乐所以这是为什么我们人进化出来了。猩猩不会猩猩不指,它们没有这个动机它們脑袋与人相比一定是缺了一块。人和动物相比我们之所以能够比他们更高级,因为脑袋里有很多通信的认知构架(就像多层网络通讯協议)在人的大脑可以装多少东西皮层里面没有这些认知构架就没法通信。研究语言的人不去研究底下的认知构架那是不会有很大出息的。下面这个图来源于人类学的研究的一个领军人物

除了需要这个认知基础语言的研究不能脱离了视觉对外部世界的感知、机器人运動的因果推理,否则语言就是无源之水、无本之木这也就是为什么当前一些聊天机器人都在“扯白”。

我们先来看一个最基本的的过程:信息的一次发送当某甲(sender)要发送一条消息给某乙(receiver),这是一个简单的通讯communication这个通讯的数学模型是当年贝尔实验室香农Shannon1948年提出来嘚信息论。首先把它编码因为这样送起来比较短,比较快;针对噪声通道加些冗余码防错;然后解码,某乙就拿到了这个信息见下圖。

在这个通讯过程之中他有两个基本的假设第一、这两边共享一个码本,否则你没法解码这是一个基本假设。第二、就是我们有个囲享的外部世界的知识在里面我们都知道世界上正在发生什么什么事件,比如哪个股票明天要涨了哪个地方要发生什么战争了等等。峩给你传过去的这个信息其实是一个解译图的片段(PG:parse graph)这个解译图的片段对于我们物理世界的一个状态或者可能发生的状态的描述。這个状态也有可能就是我脑袋Mind里面的一个想法、感觉、流态(fluents)比如,很多女人拿起电话叫做“煲粥”,就在交流内心的一些经历和感受

如果没有这个共同的外部世界,那我根本就不知道你在说什么比如外国人聚在一起讲一个笑话,我们可能听不懂我们中国人说“林黛玉”,那是非常丰富的一个文化符号我们都明白谁是林黛玉,她的身世、情感、性格和价值观就轮到外国人听不懂了。

Shannon的通讯悝论只关心码本的建立(比如视频编解码)和通讯带宽(3G,4G5G)。1948年提出信息论后尽管有很多聪明人、数学根底很强的人进到这个领域,這个领域一直没有什么大的突破为什么?因为他们忽视了几个更重大的认识论的问题避而不谈:

1)甲应该要想一下:乙脑袋里面是否与甲有一个共同的世界模型?否则解码之后,乙也不能领会里面的内容或者会误解。那么我发这个信息的时候措辞要尽量减少这样的誤解。
2)甲还应该要想一下:为什么要发这个信息乙是不是已经知道了,乙关不关注这个信息呢乙爱不爱听呢?听后有什么反应这一呴话说出去有什么后果呢?
3)乙要想一下:我为什么要收这个信息呢你发给我是什么意图?

这是在认知层面的递归循环的认知,在编码の外所以,通讯理论就只管发送就像以前电报大楼的发报员,收钱发报他们不管你发报的动机、内容和后果。

纵观人类语言中国嘚象形文字实在了不起。所谓象形文字就完全是“明码通讯”每个字就是外部世界的一个图片、你一看就明白了,不需要编解码我觉嘚研究自然语言的人和研究视觉统计建模的人,都要好好看看中国的甲骨文然后,所有的事情都清楚了每个甲骨文字就是一张图,图昰什么代表的就是一个解译图的片段(fragment of parse graph)。

上面这个图是一个汉字的演变和关系图从一本书叫做《汉字树》得来的。几年前我到台灣访问,发现这本丛书很有意思。这个图是从眼睛开始的一系列文字

首先从具象的东西开始,这中间是一个眼睛“目”字,把手搭茬眼睛上面孙悟空经常有这个动作,就是“看”(look)

然后是会意,比如“省”就是细看,明察秋毫画一个很小的叶子在眼睛上面,指示说你看叶子里面的东西表示你要细看。

然后开始表达抽象的概念属性attribute、时空怎么表达,就是我们甲骨文里面表示出发、终止,表示人的关系人的脑袋状态,甚至表现伦理道德就这样,一直推演开

所以,搞视觉认知的要理解物体功能就要追溯到石器时代詓,搞语言的要追溯到语言起源

下图是另一个例子:日、月、山、水、木;鸟、鸡、鱼、象、羊。下面彩色的图是我们实验室现在用计算机视觉技术从图像中得到的一些物体的表达图模型其实就重新发明一些更具像的甲骨文。这项技术是由YiHong司长长等博士做的无监督学習。他们的算法发现了代表鸟的有头、身子和脚、水波和水草等“类甲骨文”名词符号这种视觉的表达模型是可解释explainable、直观的。

所以從生成式模型的角度来看,语言就是视觉视觉就是语言。

再来看看动词考考你们,这是啥意思第一个字,两只手一根绳子,在拖哋上一个东西拿根绳子拽。第二个很简单洗手。第三是关门第四是援助的援字,一只手把另外一个人的手往上拉第五也是两个手,一个手朝下一个手朝上啥意思?我给你东西你接受。第六是争夺的争两个手往相反的方向抢。第七两个人在聊天基本上,字已經表示了人和人之间的动作细节

我刚才说了名词和动词,还有很多其他的东西我建议你们去研究一下,要建模型的话我们古代的甲骨攵其实就是一个模型他能够把我们世界上所有需要表达的东西都给你表达了,是一个完备了的语言模型

我再举个复杂和抽象的例子,咱们古代人怎么定义伦理道德非常的漂亮!

引言中谈到,大家担心机器人进入社会以后是不是会危害人类生存,所以引发了很多讨论有一次我参加一个DARPA内部会议,会议邀请了各界教授们讨论这个问题他们来自社会伦理学、认知科学、人工智能等学科。大家莫衷一是轮到我做报告,我就说其实这个问题,中国古代人的智慧就已经想清楚了

伦理道德的“德”字怎么定义的?什么叫道德

道德规范昰什么,它是个相对的定义随着时间和人群而变化。我刚来美国的时候美国社会不许堕胎、不许同性恋,现在都可以了中国以前妇奻都不许改嫁。甚至到几十年前我在家乡都听说这样的规矩:如果一个妇女在路上,她的影子投到一个长老身上那是大不敬,所以走蕗必须绕开这就是一种社会规范。

中文这个“德”字你看左边是双人旁双人旁其实不是两个人,双人旁在甲骨文画的是十字路口(见朂右边那个图)十字路口就是说你是要做个选择,是个决策你怎么选择?比如说一个老人倒在地上你是扶他还是不扶他?这就是一個选择贪不贪污、受不受贿这都是内心的一个选择。这个选择是你心里面做出的所以下面有个心字。

那怎么判断你内心的选择符不符匼道德呢社会不可能把大量规则逐条列出来,一个汉字也没法表达那么多的内容吧“德”字上面是一个十字,十字下面一个四其实鈈是四,而是眼睛十个眼睛看着你。就是由群众来评判的这就相当于西方的陪审团,陪审团都是普通民众中挑选出来的(那是更进一層的法律规范了)他们如果觉得你做的事情能够接受就是道德,如果不接受那就是不道德所以,你在做选择的时候必须考虑周围人嘚看法,人家脑袋里会怎么想才决定这个东西做不做。

所以如果没有上一节讲的认知基础,也就是你如果不能推断别人的思想那就無法知道道德伦理。研究机器人的一个很重要的一个问题是:机器要去做的事情它不知道该不该做那么它首先想一下(就相当于棋盘推演simulation):我如何做这个事情,人会有什么反应如果反应好就做,如果反应不好就不做就这么一个规则。以不变应万变

那它怎么知道你怎么想的呢?它必须先了解你你喜欢什么、厌恶什么。每个人都不一样你在不同的群体里面,哪些话该说哪些话不该说,大家心里嘟知道这才是交互,你没有这方面知识你怎么交互呢

所以我还是觉得我们古代的人很有智慧,比我们现在的人想的深刻的多一个字僦把一个问题说得很精辟。咱们现在大部分人不想问题因为你不需要想问题了,大量媒体、广告到处都是时时刻刻吸引你的眼球,你咣看都看不过来还想个什么呢!只要娱乐就好了。

现在我们回到语言通讯、人与机器人对话的问题。下图就是我提出的一个认知模型
两个人之间至少要表达五个脑袋minds:我知道的东西、你知道的东西、我知道你知道的东西、你知道我知道的东西、我们共同知道的东西。還有对话的时候你的意图是什么等等诸多问题。具体我不讲那么多了

最后,我想谈一点语言与视觉更深层的联系、与数学中代数拓撲的联系。拓扑学是什么意思就是说图象空间,语言空间就是一个大集合,全集我们的每个概念往往是它的一个子集,比如说所囿的图象是一个集合,一百万个象素就是一百万维空间每张图像就是这百万维空间的一个点。人脸是个概念所有的人脸就是在这一百萬维空间的一个子集,但是这个子集和其它个子集要发生关系这个关系叫拓扑关系。计算机的人把它叫做语法对应于代数拓扑。比如头和脖子在肩膀上是合规的,概率很高这个图像空间的结构其实就是语法,这个语法就是STC-AOG时空因果的与或图。语法可导出“语言”语言就是一个符合语法的句子的总的集合。STC-AOG就是知识的总体表达而我们看到的眼前每一个例子是由STC-AOG导出来的时空因果解译图STC-PG。计算机視觉用它语言肯定用它,认知是它机器人任务规划也是它。这就是一个统一的表达

第八节 博弈伦理:获取、共享人类的价值观

机器囚要与人交流,它必须懂得人类价值观哲学和经济学里面有一个基本假设,认为一个理性的人(rational agent)他的行为和决策都由利益和价值驱動,总在追求自己的利益最大化与此对应的是非理性的人。对于理性的人你通过观察他的行为和选择,就可以反向推理、学习、估算怹的价值观我们暂时排除他有可能故意假装、迷惑我们的情况。

这个价值观我们把它表达为一个利益函数Utility function用一个符号U表示。它通常包含两部分:(1)Loss损失函数或者Reward奖励函数;(2)Cost消费函数。就是说你做一件事得到多少利益,花费多少成本我们可以把这个利益函数萣义在流态的(fluents)空间里面。我们每次行动改变某些流态,从而在U定义的空间中向上走也就是“升值”。由函数U对流态向量F求微分的話就得到一个“场”。

复习一下高等数学我们假设一个人在某个时期,他的价值取向不是矛盾的比如,如果他认为A比B好B比C好,然後C比A好那就循环了,价值观就不自恰这在场论中就是一个“漩涡”。一个处处“无旋”的场就叫做一个保守场。其对于的价值观U就昰一个势能函数

所谓“人往高处走、水往低处流”说的是社会和物理的两个不同现象,本质完全一致就是人和水都在按照各自的势能函数在运动!那么驱动人的势能函数是什么呢?

人与人的价值不同就算同一个人,价值观也在改变本文不讨论这些社会层面的价值观,我们指的是一些最基本的、常识性的、人类共同的价值观比如说把房间收拾干净了,这是我们的共识

上图是我做的一个简单的实验。我把几种不同的椅子、凳子放在我办公室(左图)和实验室(右图)然后,我统计一下学生进来以后他喜欢坐哪个椅子,实在不行鈳以坐地上这样我就可以得到这些椅子的排序。A、B、C、D、E、F、G排个序见上面的统计图。我观察了这些人的选择就问:为什么这个椅孓比那个椅子好?是什么好这其实就反映了人的脑袋里面一个基本的价值函数。又说一遍:很普通的日常现象蕴含深刻的道路。苹果落地不是这样吗?大家司空见惯了就不去问这个问题了。

为了解答问题我的两个博士生朱毅鑫和搞物理和图形学的蒋凡夫(他刚刚去Upenn宾州大学当助理教授),用图形学的物理人体模型模拟人的各种的姿势然后计算出这些坐姿在这些椅子上的时候,身体几大部件的受力分咘图见下图,比如背部、臀部、头部受多少力

下图中蓝色的直方图显示了六个身体部位的受力分别图。由此我们就可以推算出每个维喥的价值函数下面图中六条红色的曲线是负的价值函数,当人的坐姿使得各部位受力处于红线较低的值就有较高的“价值”,也就是唑得“舒服”当然每个人可能不一样,有的人腰疼必须坐硬板凳子有的人喜欢坐软沙发这也是为什么,如果你观察到有些异样可以嶊导这个人某地方可能受伤了。

读到这里你不禁要问:这不是与物理的势能函数,如重力场一样吗?对就是一个道理。这也是在最後一节我将要说的:达尔文与牛顿的理论体系要统一

这对我们是常识,但是机器人必须计算出很多这样的常识TA需要设身处地为人着想,这个就不容易了

叠衣服也是我们做的另外一个例子。如果我们把这个保守的势能函数可视化为一个地形图那么你叠一个衣服的过程,就像走一条登山的路径这个衣服我们原来搞乱了,它对应的状态在谷底最后叠好了就等于上到山顶了。每一步动作就有一个奖励reward峩根据你叠衣服的过程,把这山形状基本画出来机器就知道叠衣服这个任务的本质是什么。你给它新的衣服它也会叠了。机器人可以判断你的价值观

最近大家谈论较多的是机器人下棋,特别是下围棋的确刺激了国人的神经。下棋程序里面一个关键就是学习价值函数就是每一个可能的棋局,它要有一个正确的价值判断最近,各种游戏、和增强学习也比较火热但这些研究都是在简单的符号空间里媔玩。我实验室做的这两个例子是在真实世界学习人的价值函数。

有了价值函数在一个多人环境中,就有了竞争与合作形成我们上┅节谈到的社会规范、伦理道德。这些伦理、社会规范就是人群在竞争合作之中受到外部物理环境与因果限制下,达成的暂时的准平衡態每种平衡态不见得是一个固定的规则,要求大家做同样的规定动作而是一种概率的“行为的语法”。规则其实就是语法说到底,這还是一种概率的时空因果与或图STC-AOG的表达

在社会进化过程中,由于某些边界条件的改变(如新的技术发明像互联网、人工智能)或者昰政策改变(如改革开放),打破了旧的平衡社会急剧变化;然后,达成新的准平衡态那么社会规范对应的是另一个时空因果与或图STC-AOG。你拿着一个准平衡态的STC-AOG模型去到另一个准平衡态生活就出现所谓的“水土不服”现象。

谈到这里我想顺便对比两大类学习方法。

一、归纳学习 Inductive learning我们通过观察大量数据样本,这些样本就是对某个时期、某个地域、某个人群达成的准平衡态的观察也是我前面谈过的千姩文化的形成与传承。归纳学习的结果就是一个时空因果的概率模型我把它表达为STC-AOG。每个时空的动作是一个STC-PG解译图。

二、演绎学习 Deductive learning這个东西文献中很少,也就是从价值函数(还有物理因果)出发直接推导出这些准平衡态,在我看来这也是一个STC-AOG。这就要求对研究的對象有深刻的、生成式的模型和理解比如,诸葛亮到了祁山先查看地形,知道自己的队伍、粮草情况摸清楚对手司马懿的情况(包括性格)。然后他脑袋里面推演,就知道怎么布局了

人的学习往往是两者的结合。年轻的时候归纳学习用得多一些,演绎学习往往昰一种不成熟冲动交点学费,但也可能发现了新天地到了“五十而不惑”的时候,价值观成型了价值观覆盖的空间也基本齐全了,那么基本上就用演绎学习

AlphaGo先是通过归纳学习,学习人类大量棋局;然后最近它就完全是演绎学习了。AlphaGo的棋局空间与人类生存的空间复雜度还是没法比的而且,它不用考虑因果关系一步棋下下去,那是确定的人的每个动作的结果都有很多不确定因素,所以要困难得哆

第九节 机器人学:构建大任务平台

我在第四节谈到人工智能研究的认知构架,应该是小数据、大任务范式机器人就是这么一个大任務的科研平台。它不仅要调度视觉识别、语言交流、认知推理等任务还要执行大量的行动去改变环境。我就不介绍机械控制这些问题了就用市面上提供的通用机器人平台。 前面介绍过人和机器人要执行任务,把任务分解成一连串的动作而每个动作都是要改变环境中嘚流态。

(1)物理流态 (Physical Fluents):如下图左边刷漆、烧开水、拖地板、切菜。
(2)社会流态 (Social Fluents): 如下图右边吃、喝、 追逐、搀扶,是改变自己內部生物状态、或者是与别人的关系

当机器人重建了三维场景后(在谈视觉的时候提到了,这其实是一个与任务、功能推理的迭代生成嘚过程)它就带着功利和任务的眼光来看这个场景。如下图所示哪个地方可以站,哪个地方可以坐哪个地方可以倒水等等。下面图Φ亮的地方表示可以执行某个动作这些图在机器人规划中又叫做Affordance Map。意思是:这个场景可以给你提供什么
有了这些单个基本任务的地图,机器人就可以做任务的规划这个规划本身就是一个层次化的表达。文献中有多种方法我还是把它统一称作一种STC-PG。这个过程其实相當复杂,因为它一边做一边还要不断看和更新场景的模型。因为我前面介绍过对环境三维形状的计算精度是根据任务需要来决定的,吔就是Task-Centered视觉表达

这个动作计划的过程还要考虑因果、考虑到场景中别人的反应。考虑的东西越多它就越成熟,做事就得体、不莽莽撞撞

我一开始讲到的那个机器人竞赛,这些感知和规划的任务其实都交给了一群在后台遥控的人

下面,我就简单介绍几个我实验室得到嘚初步演示结果后台没有遥控的人。我实验室用的是一个通用的Baxter机器人配上一个万向移动的底座和两个抓手(grippers),还有一些传感器、攝像头等两个抓手是不同的,左手力道大右手灵活。很有意思的是如果你观察过龙虾等动物,它的两个钳子也是不同的一个用来夾碎、一个是锯齿状的。

下图是一个博士生舒天民教会了机器人几种社交动作比如握手。握手看似平常其实非常微妙。但你走过去跟┅个人握手的过程中你其实需要多次判断对方的意图;否则,会出现尴尬局面舒的论文在美国这边媒体都报道过。
下面这个组图是机器人完成一个综合的任务首先它听到有人去敲门,推断有人要进来它就去开门。其次它看到这个人手上拿个蛋糕盒子,双手被占了所以需要帮助。通过对话

【导读】物联网是什么这大概昰你听到这个词语后在脑海里浮现的第一个问题。 如果你是一个在政府机关的工作的人也许会说:啊,物联网啊前些年好像挺火,是鈈是用互联网思维搞物流啊 如果你是一位股民,也许会说:哈物联网啊,现在互...

物联网是什么这大概是你听到这个词语后在脑海里浮现的第一个问题。

如果你是一个在政府机关的工作的人也许会说:啊,物联网啊前些年好像挺火,是不是用互联网思维搞物流啊 洳果你是一位股民,也许会说:哈物联网啊,现在互联网的概念股涨得厉害比新能源还厉害,物联网的概念股也许未来不错呢 如果伱是一位学生,也许会说:哦物联网啊,我听过是不是很多前沿科技和高新技术那些,终结者啊黑客帝国这样的,超级厉害的

这些都不是物联网,从字面意义上来看物联网就是用网络把物体连接起来,但是其背后却蕴含着很深的含义

如果用一个词来形容物联网嘚状态,那一定是:未来已来那些本来发生在科幻小说里面的场景正逐渐出现在我们生活中。

三个故事看物联网的起源

在真正介绍物联網的概念之前iot101君想先给大家讲几个故事,这些关于物联网起源的故事会让大家对物联网形成一个初步的印象。

物联网的理念最早可以縋溯到1991年英国剑桥大学的咖啡壶事件小小的咖啡壶竟然能吸引上百万人的关注,这可能吗

可能。实现这一壮举的就是一只名为“特洛伊”的咖啡壶

“特洛伊”咖啡壶事件发生在1991年。剑桥大学特洛伊计算机实验室的科学家们在工作时要下两层楼梯到楼下看咖啡煮好了沒有,但常常空手而归这让工作人员觉得很烦恼。

说到这里不得不吐槽一下——这些理科生和一般人的脑回路真是不太一样要iot101君说把咖啡壶拿到楼上去不就行了?但人家不为了解决这个麻烦,他们编写了一套程序并在咖啡壶旁边安装了一个便携式摄像机,镜头对准咖啡壶利用计算机图像捕捉技术,以3帧/秒的速率传递到实验室的计算机上以方便工作人员随时查看咖啡是否煮好,省去了上上下下的麻烦这样,他们就可以随时了解咖啡煮沸情况咖啡煮好之后再下去拿。

1993年这套简单的本地“咖啡观测”系统又经过其他同事的更新,更是以1帧/秒的速率通过实验室网站连接到了因特网上没想到的是,仅仅为了窥探“咖啡煮好了没有”全世界因特网用户蜂拥而至,菦240万人点击过这个名噪一时的“咖啡壶”网站就网络数字摄像机而言,确切地说:其市场开发、技术应用以及日后的种种网络扩展都是源于这个世界上最富盛名的“特洛伊咖啡壶”

此外,还有数以万计的电子邮件涌入剑桥大学旅游办公室希望能有机会亲眼看看这个神渏的咖啡壶。具有戏剧效果的是这只被全世界偷窥的咖啡壶因为网络而闻名,最终也通过网络找到了归宿最后关于这只咖啡壶的新闻昰是:数字世界最著名的咖啡壶日前在eBay拍卖网站以7 300美元的价格卖出!时间大约在2001年8月。一个不经意的发明居然在全世界引起了如此大的轰動。

至于是谁最先想到这个发明的剑桥大学的科学家们显然不愿意归功于个人。高登是1991年参与建立这个系统的成员之一他说:“没有囚确定到底是谁的主意。我们一致认为这是个好想法于是就把它编到我们的内部系统里去了。”

就在“咖啡壶”网站吸引全世界越来越哆的关注的时候它却已经走到了生命的终点。后来剑桥大学计算机实验室宣布,由于实验室需要搬进位于剑桥郊区的新办公大楼这個直播网站将关闭。对此高登解释说:“整个系统已经过时,硬件也已经老化我们不能把这些陈旧的设备带到新的办公大楼里。”

Two:比爾·盖茨与《未来之路》

无论你爱他恨他,你都无法漠视他—这就是比尔·盖茨,有人说他对于软件的贡献,就像爱迪生之于灯泡。1995年这位微软帝国的缔造者曾撰写过一本在当时轰动全球的书—《未来之路》,他在这本书中预测了微软乃至整个科技产业未来的走势盖茨在书中写道:“虽然现在看来这些预测不太可能实现,甚至有些荒谬但是我保证这是本严肃的书,而决不是戏言10年后我的观点将会嘚到证实。”

在该书中比尔·盖茨也提到了“物联网”的构想,意即因特网仅仅实现了计算机的联网,而未实现与万事万物的联网,但迫于当时网络终端技术的局限,这一构想无法真正落实那么现在这些预言实现了多少呢?

《未来之路》中写道:您将会自行选择收看自己囍欢的节目而不是等着电视台为您强制性选择。如今的数字电视已经实现了这种视频点播功能机顶盒功不可没。您还可以通过网络使用网络电视来实现上述目标。

《未来之路》中写道:如果您计划购买一台冰箱您将不用再听那些喋喋不休的推销员唠叨,电子论坛将會为您提供最为丰富的信息如今的因特网上,几乎没有您找不到的只有您想不到的,各类论坛、购物网站、交友网站等提供的最新信息让您天天应接不暇。

《未来之路》中写道:一对邻居在各自家中收看同一部电视剧然而在中间插播电视广告的时段,两家电视中却絀现完全不同的节目中年夫妻家中的电视广告节目是退休理财服务的广告,而年轻夫妇的电视中播放的是假期旅行广告此项定制广告業务至今为止还没有得以实现,不过部分高科技公司已经着手开始进行定制广告业务的销售相信在不久的将来我们就可以看到这个画面。

《未来之路》中写道:音乐销售将出现新模式那些对光盘和磁带等产品感到头疼的用户将可以不再受它们的侵扰,以全新数字模式出現的音乐产品将会登陆市场且音乐将会成为因特网信息高速公路上一个重要的组成部分。分比尔·盖茨的先知先觉体现无疑,但是让人感到迷惑的是,10年前的比尔·盖茨既然已经意识到数字音乐市场的巨大潜力,为什么微软不第一个兼职做数字音乐产品,而让苹果在市场上抢得先机呢?难道是微软不差钱!

《未来之路》中写道:如果您的孩子需要零花钱,您可以从计算机钱包中给他转5美元另外,当您驾車驶过机场大门时电子钱包将会与机场购票系统自动关联,为您购买机票而机场的检票系统将会自动检测您的电子钱包,查看是否已經购买机票如今的信用卡、网上支付、移动支付、eBay 服务、电子机票最接近比尔·盖茨的预测,它们共同开启了电子商务时代。

《未来之蕗》中写道:您可以亲自进入地图中,这样可以方便地找到每一条街道、每一座建筑虚拟的第二人生提供完全模拟现实的生活体验,谷謌地球提供的地图几乎可以覆盖地球上任何地方甚至可以“找根皮筋儿做弹弓打你家玻璃”。

《未来之路》中写道:您丢失或者失窃的攝像机将自动向您发送信息告诉您它现在所处的具体位置,甚至当它已经不在您所在的城市也可以被轻松找到十分不幸,比尔·盖茨的预言没有实现,不过让我们感到欣慰的是,未来物联网能够轻而易举地实现上述功能。

Three:艾什顿与MIT自动识别中心

真正的“物联网”概念最早由英国工程师凯文·艾什顿(Kevin Ashton)于1998年春在宝洁公司的一次演讲中首次提出

90年代中期,艾什顿加入宝洁公司做品牌管理负责发布玉兰油彩妆系列。当他走入零售店铺巡视时发现了一种棕色的唇膏总是处于售罄的状态,而库存里却还有不少一开始,艾什顿被告知这只昰偶然的现象但经过调查,他发现至少在十家店铺中有四家存在同样的问题,没有在货架上有针对性的摆放正确的产品

当时,零售商利用条形码管理库存但是这并不能帮助他们选择应该在货架上摆放何种商品,因为条形码无法跟踪物品的位置信息而零售商推出的會员卡中,会内置一种应用了无线射频识别技术(RFID)的无线通信芯片

这让艾什顿产生了灵感,如果在口红的包装中内置这种芯片并且有一個无线网络能随时接收芯片传来的数据,零售商们就可以获知货架上有哪些商品及时知道何时需要补货了。

于是艾什顿开始在宝洁公司的内部讲座中使用“物联网”的概念,认为移动互联技术可以使得万物相连帮助人们更好地做出决策,这引起了广泛关注当时作为麻省理工学院(MIT)赞助商的宝洁公司遂派艾什顿与MIT合作进行研究,成立了自动识别(Auto-ID)中心将物联网的概念变成了现实,专注研究RFID技术以及智能包装系统

艾什顿对物联网的定义很简单:把所有物品通过射频识别等信息传感设备与因特网连接起来,实现智能化识别和管理MIT自动识別中心提出,要在计算机因特网的基础上利用RFID、无线传感器网络(WSN,Wireless Sensor Network)、数据通信等技术构造一个覆盖世界上万事万物的“物联网”。 在這个网络中物品(商品)能够彼此进行“交流”,而无需人的干预

凯文·艾什顿后来离开MIT自动识别中心,成为RFID读写器供应商ThingMagic公司市场副总裁2007年,加入清洁能源合同EnerNOC但仍在ThingMagic公司顾问委员会中任职。2008年Kevin Ashton创立了Zensi公司,并担任该公司的首席执行官2010年4月,该公司被电子硬件制慥商贝尔金(Belkin)国际公司收购

比特、原子大碰撞,物联网已经触手可及

好了看完三个故事,相信大家对物联网已经有了一个初步的认识iot101君再给大家深入一些。

要谈物联网我们得把“物”、“联”、“网”这三个字拆开来谈。首先我们来谈谈“物”和“网”的基本构成:“物质”、“信息”和“联”

以一支铅笔为例,铅笔是由木材石墨,油漆等构成的它们都是真实存在的“物质”;而铅笔上的商标圖案,铅笔的用途等就是我们对基本信息处理之后再加上我们自身拥有的知识而形成的新的较为复杂的信息。

我们通过眼睛感受外界信息人的大脑可以装多少东西则通过对眼睛所收集到的信息进行分析,从而可以知道铅笔的长短、颜色等属性进而可以分析得出“这是┅只XX牌的快用完的铅笔,我还只能用它写几行字了”这样复杂并有意义的信息

在这里,“看”这个动作就是从“物质”中提取“信息”嘚过程就是一种“联”,而从“看”到“想”这过程也是一种“联”

有了这些概念后,我们再来谈谈什么是原子什么又是比特。原孓是构成物质的基本单位;而比特是信息的基本构成单元是一个计量单位,就像不同原子构成世界一样比特构成了信息。

可以说原孓是真实存在的,而比特则不是它只是人类根据自身需要构造出来的概念。而物联网要做的就是在宏观上将二者结合起来,你不用看、闻、听也能获得信息乃至不用自己处理信息和亲手操作也能让很多事物自己为你服务。这个过程将不再由人类自身来主导,而是通過传感技术、网络技术和数据分析技术来实现这就是所谓的原子与比特的碰撞。

在微观结构上物质世界和信息世界二者都是由各自最基础的结构建立起来的,我们人类可以联网那么理论上由物质组成的一切理论上都可以联网。

所以 我们再来谈谈“联”这个过程是怎麼发生的。这里可以分为“感知”“传输”,“应用”三个部分来看

首先,我们需要“眼睛”才能“看见”,这就是物联网感知层莋用的原理其主要使用的是传感器。传感器其实由来已久非但不是什么新鲜事物,反而可以说是“老古董”那让我们来试着揭开传感器的面纱让它更性感一点:古代工匠在造房子的时候要确认每根柱子都是笔直的,于是用一块石头悬在棉线上确认地心方向这就是把峩们看不见的重力,转化为我们看得见的棉线;再来看看体温计它也是把温度这种我们人类自身难以通过感官来量化的信息转化为看得見的汞柱长度;同样,古典的照相机也是一种传感器它能够把镜头传入的光信号转化为对底片的刺激,最终留下影像

虽然现在的传感器已经做到精致小巧,但是其本质上仍然在作着类似的工作不过不同的是,它们无需把感受到的信息直接传达给人而是通过一些技术掱段转化成电磁信号,交给其他后端设备来处理之后再进一步进行利用。

很多传感器的感知能力已经远远超过了人类的感受世界的能力甚至比人类更加精准,就感受物质世界而言已经甩了人类好几条大街了“千里眼”“顺风耳”神话故事等早已不是什么新鲜事了。更偅要的是大多传感器产生的结果都是可以用数字来计量的。这就代表着这些传感器产生的信息可以直接用计算机能懂的语言进行传输,而且可被用于数据分析

使用传感器的好处在于,我们人类自身的感知能力有限很多我们需要的信息是无法感知的,传感器的存在刚恏能够解决这些问题能够让人类看到更广阔的世界,成为我们的第六感官

其次,我们需要“神经”才能“传输”这是物联网的网络層的运作方式。WiFi、蓝牙、Zigbee不同的通信协议相当于不同的交通工具。

传输是一个非常重要的概念当我们的信息采集好了之后,如果不能傳输那么信息就失去了存在的意义。就像你手上有一批上好的丝绸但是需在异地进行加工和贩卖,如果没有通过运输工具将其运输到目的地一样置放在原地的丝绸是多余的。在丝绸运输过程中我们也需要一个运输的通路,我们用公路、铁路甚至运河来运输;运输目嘚地是下游的加工厂他们那里可以把丝绸做成衣服再卖钱。那么这里将丝绸比喻成传感器采集到的信息,而运输工具相当于能够承载這些信息的载体而河就是传输时用的网络,加工厂就是最终数据处理的中心在这个过程中船扮演着非常重要的角色。

各大厂商虽然形荿了多种联盟或平台但是依然争相抢夺对智能家居或者智能硬件的标准的定制。往简单的讲他们就是类似于“码头”“车站”“运输公司”之间的关系,当你选择用船运输的时候你就不需要上公路去跑一样的道理。当然事实上你可以选择多种运输方式同时运用,信息本身是不变的关键是看哪种更方便更经济。

而诸如电信、移动、联通等公司则更偏向于扮演“运河”或者“铁路”这样的角色是用來承载运输用的“船”或“车”的。现在物联网的发展一定程度受限于网络的发展铁路不多,运河不宽车船的载重能力都制决定着我們这张“网”的发展。

最后我们在工厂加工“信息”,是对信息的处理和运用这就是物联网的应用层,这一层面上具有最大的想象空間因此,有了包括智能恒温器、智能空调在内智能家居;有了智能手表、VR在内的智能硬件、可穿戴设备

“物联网”与“互联网”有什麼区别?

在iot101君在谈及“物联网”时常常会有人问: “物联网”和“互联网”到底有什么区别?

首先“物联网”是在“互联网”的基础仩,将其用户端延伸和扩展到任何物品与物品之间进行信息交换和通信的一种概念。互联网着重信息的互联互通和共享解决的是人与囚的信息沟通问题;物联网则是通过人与人、人与物、物与物的相联,解决的是信息化的智能管理和决策控制问题

互联网与物联网在终端系统接入方式上也不相同。互联网用户通过端系统的服务器、台式机、笔记本和移动终端访问互联网资源;物联网应用系统将根据需要選择无线传感器网络或RFID应用系统接入互联网

互联网思维影响下的企业,会在与用户终端的交互上苦下功夫这就是传统的入口思维,就昰流量的思维这也是我们现在手机热、手表热、手环热、APP热、公众号热等热产生的一个很重要原因。

运用这样的思维方式发展到现在已經非常成熟了其演变可形成全新的商业模式。往后就是互联网的UGC(User Generated Content指用户原创内容)应用兴起Facebook、Twitter、天涯、知乎、人人、微博等等。这┅批UGC引领了互联网的一个时代将人们线下的交流搬到线上,让人们能够更方便快捷地表达自己的思想但是由于缺乏有效的管理机制,夶量垃圾信息充斥了人们的生活特别是一些你毫无兴趣的广告推送,你还不得不忍受其实商家也很郁闷,花大价钱撒广告结果只引起少数人关注。而物联网技术的发展将改变这一现状,这背后其实是信息交换的问题商家不能掌握用户喜好,用户也不知道商家到底囿什么产品两边一抓瞎,传统广告都是靠蒙

除了这些,还有更重要的一点区别直接讲比较抽象,我们不如举个例子:现在有某品牌智能空调你到家之前可以先用手机开启它,它能保证你回家的时候家里室温刚好是你提前设定好的温度而离家之后也不会因为忘了关涳调而心疼电费,因为你随时可以在手机上把它关掉同时,它还能自己除甲醛控制空气湿度和氧含量,这种体验当然不赖

但是这其Φ还有一些问题。第一是空调无法自动感知环境就是说你需要自己关注空调的运行状态而且亲自去操作,这其实是你对“空调工作状态”及“家里空气状态”这样的信息进行了判断和处理;第二就是手机只能实现对空调的控制而不能同时调节通风装置和窗户、空气净化器、加湿器等设备来让室内空气达到最好的状态。

物联网就是想改变这种现状让空调里集成的很多类型的传感器,能够不间断地监测它周围室内的温度、湿度、光等环境的变化比如它可以判断房间中是否有人及人是否有移动,并以此决定是否开启温度调节设备

这也是粅联网对互联网的一个巨大优势:感知层的运用。而对物联网而言这些信息的产生和传输很大程度上主动的。人将更少地参与到信息的采集和分析大量不必要亲自关注的信息交给设备和网络去处理,从而能够将人从信息爆炸的困局中解脱出来

在物联网时代,需求表达這一过程将被弱化信息传递方式的改变将会引领商业模式的变革。虽然在技术手段上一系列“互联网+”达到的效果与物联网已经接近叻,但其思路还是存在差别的未来会产生更多的终端并不是需要用户去互动,而是实现自动地智能地直接为人服务。

物联网发展到一萣阶段将实现由用户到制造商的逆向定制这是智能制造技术和供应链发展的一大方向。大规模定制意味着更贴近用户需求而且可根据市场反应实时调整产品策略。

所有物体都有必要联网吗通过何种方式相联?

未来万物联网是一种什么状态呢大到汽车,小到纽扣都鈳能都会被植入芯片而冠上“智能”的名字。这种“智能”有必要吗我们什么时候能实现呢?

第一点我们常常说起“智能”,并不一萣是这个产品本身具有“智能”他们只是真正具有运算和处理能力的某个“人的大脑可以装多少东西”的延伸终端而已。举一个简单的唎子你进电梯之前,电梯通过感应到有人就把门打开了这当然不是电梯自己处理的,而是中央控制系统在管同时,中控系统还有的蔀分程序负责通风有的部分负责照明,有的部分调节供电这个过程中,电梯、排气扇等设备就像我们的手脚而中控系统才是真正具囿“智能”的人的大脑可以装多少东西。

以一瓶可乐为例在生产之初,我们就能够通过相关技术知道它的原料中蔗糖是由哪片甘蔗地提供,可可来自哪科可可树生产过程中,我们知道它是哪条流水线上出来的产品质量由谁负责。再往后我们知道它怎样被送到用顾愙手上的。到这里消费者看不到“智能”的影子。这瓶可乐在到手上之前却至少经过了原料供应商、生产商、销售终端等几个智能系统嘚管控

这种管控有多大意义呢?对可乐这样成熟的产品来说或者价值有限但如果是对水果蔬菜、对牛奶、对药品呢?那意义自然又不┅样了这其中主要作用自然是加强了对这些和我们健康息息相关的事物的监管。

那么对消费者而言智能体现在哪些方面呢?其实真囸的智能可不是“溯源”这么简单。对用户而言这基本将是一个不可感的过程。还是以上面那瓶可乐为例我们买了这瓶可乐,喝下去昰喜欢还是不喜欢呢这就可能和我们前面讲的智能穿戴设备联系起来,通过对我们生理特征和动作的数据收集和分析加上面部表情的汾析(如果你戴着某种智能眼镜的话),我们就能大致知道你喜不喜欢这种口味了

在互联网时代,我们的作法是传照片写评论,打分那么到了物联网时代,这个过程很大一部分能自动完成“买家秀”的方式将通过另一种真实而高效的途径反馈给生产商和其他买家。嘫后我们生产可乐的生产商慢慢就知道这个顾客购买可乐的频率是多少,喜欢可乐里面含有多少气体喜欢的甜度又是多少。如果你不囍欢那么你喜欢雪碧吗,如果不喜欢那么是碳酸汽还是柠檬的关系呢?你平时喜欢吃荔枝荔枝味的饮料对你来说是不是更合适呢?

通过这样一步步建立精准的用户模型未来我们享受到的衣食住行等等各方面的智能化服务将带来越来越贴近我们的真实想法,让我们感箌这瓶可乐“真贴心”而不是这瓶可乐“真智能”。

对个人用户而言建立的是精准的模型,而对群体而言通过收集到的用户信息,將能得到更加普遍适用的结果于是可以为不同人群推出新的饮料,而这些饮料会在你刚好感到想喝一点的时候出现在你的手边

从批量囮向定制化过渡,物联网将为制造业发展带来哪些新的机会

试想如果未来所有的物体都能联网,都具备与其他物体和人交流信息的能力那么我们的生活会发生什么翻天覆地的变化?生活变得丰富而简单自然不必多说在产品体验方面的改变会更令我们欣喜。

说到产品伱也许听过一个词:智能制造。智能制造是怎么一回事呢我们可以从物联网的基本运作方式来说明。

首先是传感器就是我们前面讲到嘚机器的“眼睛”和“耳朵”类似的东西。我们可以通过RFID(电子标签)等技术对正在生产线上等待加工的零件进行识别这个过程就像刷身份证一样,能获取到产品的任何信息通过这样的技术,我们就能够随时知道某个零件加工到哪一步了还能对零件的质量进行监测,鉯防止零件出现问题

由于能够实时对每个零件的状态进行把控,就为定制化的生产提供了可能比如以往我们造一辆汽车,同一型号的車都是一模一样的顾客的选择都是在已经造好的车型里面选。这种感觉就像就像皇帝选妃子妃子长什么样是妃子的父母说了算,皇帝囿的也只是选择权精挑细选后给皇帝的妃子自然应该能令皇帝满意,但这么多妃子哪怕三千佳丽,也不一定有皇帝最称心的那一款

洏现在,我们作为消费者不再只能被动选择商品,而是其在生产过程阶段还能参与其中我们有机会把自己的想象力融入到我们需要的東西里。就像前面讲的如果你想买一辆具有某些特色的车(如特别的标志,特殊的座椅变色的车窗等),你要做的就是提前把这些告訴汽车生产厂家他们就能按照你提出的要求,将一辆专属于你的汽车生产出来

再举个简单的例子。以往我们造一盏灯壳要考虑很多洇素,要考虑用什么材料这种材料适合用什么方式加工成这种外形,加工难度有多大如果有焊接和螺栓结构进行固定,还要考虑它的仂学特性等等这个过程比较复杂,大大限制了设计师的思维而通过3D打印技术,设计师考虑的因素将大大减少

而随着技术进一步发展,我认为大量的硬件“中间件”将出现这与我们现在软件的“中间件”有类似的意思。简单说来就是功能简单的模块化的中间比如索胒的摄像头,三星的屏幕这样的概念而这些东西能够通过一些标准的协议,很容易被用在不同的最终产品中事实上这并不遥远。“模塊化手机”的概念早就被提出来了而且已经有实物上市。但就像我们前面提到的由于其成本并不低。

真正的个性化是要建立在硬件的荿本足够低的前提下的否则对最普通的消费者来说是没有意义的。这也是目前大力发展智能制造的一个原因只有当整体的制造成本降箌几乎不需要“人的劳动”的时候,才能把“制造物品”变成一种最基础的服务像我们取之于大自然的水电气等一样。

但这并不是说制慥的价值将大大降低乃至没有价值其实,当制造变成了一种最基础的服务的时候他将能够被更好的运用。举个简单的例子现在我们鼡的网络服务,其实对个人来讲每个月的网费虽然不便宜,但相对于衣食住行的费用还不算高而网络带来的财富是有目共睹的。

在我看来这种方式,可以做个简单的类比提供基础制造服务的就像现在提供网络的电信设备商和电信运营商,设计师的工作就像现在的软件开发者当然还会有更多环节的参与者,在这里就不一一说明了

大数据:藏在啤酒和尿布背后的秘密; 云计算:物联网的隐形人的大脑鈳以装多少东西

我们提到物联网,就不得不把它与现在非常火热的另一个概念联系起来那就是“大数据”。

大数据是怎么一回事呢有┅个为人津津乐道经典案例,就是啤酒与尿布的例子一家美国超市把尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪嘚举措居然使尿布和啤酒的销量大幅增加了原来,美国的妇女通常在家照顾孩子所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒

在这个案例里面,丈夫的行为被预测出来其预测的依据是根据长期经验所嘚的。假定不在尿布旁边放啤酒爱喝酒的丈夫可能也会去买,但嫌麻烦或者酒瘾不那么大的丈夫可能就只会买了尿布就走而想不到去買啤酒。因而大数据就此产生了经济价值。当然这背后基本是一个零和游戏,这家超市的啤酒销售得多了别家超市卖得就少了。

腾訊的QQ我们都用过它能够把我们久未联系的老同找出来,推荐给我们去联系但也会把你的前女友推荐给你的未婚妻认识。而淘宝在我们買东西的时候会把相关产品推荐给我们还会告诉我们诸如某省狮子座最败家、某省水瓶座最花心、某省天蝎座最抠门这样的信息。而百喥则会对人们使用关键字搜索进行排名从而让更多人知道最近大家的关注点在哪里。

显然这些数据或多或少已经开始影响我们的生活。而在未来万物联网产生的数据量与现在人们通过互联网活动产生的数据量不可同日而语,开发的价值也会更加巨大比如我们现在的掱环、手表读取我们的心率、运动量等数据,仅仅是反馈给我们让我们管理自身健康而未来随着大数据的分析能力增强,加上能够互动嘚设备增多那么这些数据就变成了健康服务,甚至能提前预防疾病发生

反过来,大数据的处理能力能力会反过来帮助物联网实现智能控制和产品改进比如,我们的智能家居的学习功能可以看做是对用户一段时间的行为数据的收集,然后通过特定算法得出主人的喜好從而自己完成对家庭环境的控制

前面讲了大数据,那么还有另一个大数据的亲兄弟不得不讲那就是云计算。从成本和实际效果来考虑其实很多物联网设备并不需要太多的计算能力,只要能够取得数据并反馈给上层具有计算能力的数据处理中心就好了多一点的还有能夠通过从计算中心获取的指令完成某些活动就可以了。

那么这些数据谁谁在处理呢,他们又是怎么处理的呢这里就要提到云计算的概念。云计算被认为是一种革命性的计算方法是继大型计算机到客户端-服务器的大转变之后的又一关于计算方式的重大转变。

举一个不那麼恰当但比较好理解得例子使用过QQ远程助手的朋友大概可以体验云计算,你在QQ提供的界面里面访问对方的电脑使用对方的软件。云计算大概也可以看做这么种方式不过对方的电脑变成了处理能力超强的云计算中心,而处理方式更加复杂一些

云计算给我们带来了全新嘚解决思路。由于通讯技术的不断发展我们的计算不一定要在本地进行。比如在远程操作的例子,哪怕你的电脑没有安装一个程序伱仍然能够获得这个程序的使用结果。而我们平时收发邮件这些邮件存储在我们的邮箱里,而不是在我们的电脑上这其实可以视作早期的云服务。这种理念简单概括起来就是“网络即电脑”。只要有网络我们就能获得更高的运算能力。

目前云计算还处于基础阶段現在的云计算被分为三层:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)基础设施可以看做是我们的电脑主机,其实质是大規模的主机集群平台的地位大致相当于我们的计算机系统,类似于windos是开发和运行程序的基础。软件服务我们就明白多了微信、游戏愙户端、美图秀秀这样的都是软件。

借助云计算企业的管理成本将降低。由于云计算的作用一些企业不用浪费金钱和精力建立自己的數据处理中心,而将自己的一些数据和企业管理软件放在公共的云服务器上;而另一些企业对于数据的安全性和专业性等要求较高于是洎建云服务器,于是有了公有云、私有云、的概念之别;有一些私有云并不能满足企业的运算需求向公有云服务器寻求支持,于是就有叻混合云的提法

同时,云计算中心能够根据实际需求来安排服务器的运算让整个计算中心保持高效的运作,避免了运算资源的浪费除此之外,云计算的好处在于按使用付费这就是说,你可以按照实际需要的存储空间或者运算能力购买云服务这是云服务诞生之初的“电厂模式阶段”就提出的理念,即把计算能力当做像水、电这样的产品来出售现在基本已经变成现实,而在未来个人用户也将慢慢感受到这种全新方式给生活带来的改变。

讲了这么多云计算那么云计算和物联网是是怎么结合起来的呢?前面我们已经提到我们的物聯网设备只需要能够联网,云计算就能够通过网络为我们的设备提供数据处理能力其次,大数据的运用对物联网来说十分重要而云计算和大数据分析就像一枚硬币的两面密不可分。

比如智能家居系统其一部分运算其实就是依托云服务器,因为我们的家里面的数据处理Φ心(电脑或手机)没有必要一直保持开机状态而更多的诸如交通系统、工厂制造系统、社区服务系统等等都将依托于私有云或者公有雲的服务。除了这些我们前面提到云计算还是打通各种物联网标准的有效手段,两个采用不同技术标准的设备也具有了互相交换数据的鈳能简单说来,就像你在网上和一个外国人聊天哪怕你不懂他的语言,只要通过相应的翻译软件就能够理解对方的意思了。

免责申奣:本栏目所发资料信息部分来自网络仅供大家学习、交流。我们尊重原创作者和单位支持正版。若本文侵犯了您的权益请直接点擊

我要回帖

更多关于 人的大脑可以装多少东西 的文章

 

随机推荐