随着机器人降低成本帮助人工作效率大大提高，一周休息三天空闲时间越来越多60年后在发达国家是大势所趋吗

糖尿病 | ICEY（游戏） | 骨折 | 时间管理 | 王源 | 设计师 | 视力保健 | 会计学习 | 演员 | 手相 | 虚拟专用服务器 | 猎头公司 | 任家萱 | 奶茶 | 流感 | 结构工程 | CPU | 茂名市 | 武汉大学 | 自助游 | Windows 10 | 痔疮 | 熬夜 | 红楼梦（小说） | 网页游戏 | 肺癌 | 丸子 | 皮肤病 | 猎头 | 直播 | 网络赚钱 | 英语听力 | 植发 | 皮肤过敏 | 赚钱 | 电脑配置 | 互联网公司 | 民俗 | 视频会议 | 开店 | 微信朋友圈 | 狐臭 | 王一博 | 英文歌曲 | 华为荣耀 | 口臭 | 扫地机器人 | 笔试 | 期货交易 | 办公软件 | 天体物理学 | 医患关系 | 智商 | 字幕 | 饮食 | 睡眠质量 | 融资 | 冬虫夏草 | 图片处理 | 燕窝 | 率土之滨 | 冬奥会 | 美术生 | 高血压 | 旅游推荐 | 职场心理 | 艺考 | 网易云音乐 | 练字 | 西藏旅游 | 河北工业大学 | 钢琴谱 | 央视 | 程序 | 青蛙 | 手机摄影 | 坐月子 | 婚恋网站 | 马鞍山市 | 汤品 | 洗发水 | 编剧 | 周杰伦 | 梵蒂冈 | 古琴 | 三国人物 | 世界杯(worldcup) | 电动机 | 电吉他 | 疤痕修复 | 婆媳关系 | 矩阵 | 手绘 | 中央处理器(cpu) | 东京 | 主题曲 | FaceTime | 用户界面设计师 | 三轮车 | 蓝莓 | 日本留学 | 过敏性鼻炎 | 绝地求生大逃杀 | 摄影器材 | 眼科学 | 跑跑卡丁车 | 核桃 | 范冰冰 | 传奇世界 | 岳云鹏 | 服装面料 | 乳腺癌 | 月饼 | 产后护理 | 摄影师 | 关节炎 | 热血传奇（游戏） | 祛痘 | 湿疹 | 中医养生 | 应用商店 | 洗衣机 | 智能手机 | 袁绍 | 头发 | r（编程语言） | 转行 | 支气管炎 | 小米盒子 | 抚顺市 | 土豆 | 女生 | 三菱商事 | 佛教 | 校服 | 咨询公司 | 分子生物学 | 跳槽 | 威士忌 | 古典音乐 | 微生物 | 插件 | solidworks | 中奖 | 近视手术 | 天秤座 | 旅游线路 | 泉州市 | 孤岛惊魂（游戏） | 博士 | 手工艺 | 琅琊榜 | 刷机 | 辐射危害 | 食物 | 狂犬病 | 古钱币 | 大话西游（电影） | 好莱坞 | 化疗 | 贫血 | 肾结石 | 三星 | 脚臭 | 萧炎 | 过年 | 发电 | 读后感 | 烟台市 | 肠胃 | 土拨鼠 | 牛初乳 | 中耳炎 | 几何学 | 白癜风 | 烫伤 | 偶像 | 投影仪 | 人生 | 潍坊市 | 历史故事 | 红木家具 | 上海生活 | 加拿大留学 | 乳头 | 耳鸣 | 记忆 | 电钢琴 | 公司取名 | 国家队 | 尧山 | 劳动合同 | 尿毒症 | 足球彩票 | 动车 | 日历 | 非诚勿扰 | 疾病 | 大城市 | 台湾旅游 |

你的位置：网站首页 >> 频道首页 >>工作 >>随着机器人降低成本帮助人工作效率大大提高，一周休息三天空闲时间越来越多60年后在发达国家是大势所趋吗

随着机器人降低成本帮助人工作效率大大提高，一周休息三天空闲时间越来越多60年后在发达国家是大势所趋吗

来源：蜘蛛抓取(WebSpider) 时间：2020-08-11 12:57 标签：机器人降低成本

统计学和计算机科学教授

视觉、認知、学习与自主机器人中心主任

2017年11月02日刊登于《视觉求索》微信公众号

第三节历史：从“春秋五霸”到“战国六雄”

第四节统一：“小數据、大任务”范式与认知构架

第八节学科四：博弈伦理---获取、共享人类的价值观

第十节学科六：机器学习---学习的终极极限与“停机问题”

第十一节总结：智能科学---牛顿与达尔文的统一

附录中科院自动化所报告会上的问答与互动摘录

“人工智能”这个名词在沉寂了近30年之后最近两年“咸鱼翻身”，成为了科技公司公关的战场、网络媒体吸睛的风口随后受到政府的重视和投资界的追捧。于是新闻发布会、高峰论坛接踵而来，政府战略规划出台各种新闻应接不暇，宣告一个“智能为王”时代的到来

到底什么是人工智能？现在的研究处於什么阶段今后如何发展？这是大家普遍关注的问题由于人工智能涵盖的学科和技术面非常广，要在短时间内全面认识、理解人工智能别说非专业人士，就算对本行业研究人员也是十分困难的任务。

所以现在很多宣传与决策冲到认识之前了，由此不可避免地造成┅些思想和舆论的混乱

自从去年用了微信以来，我就常常收到亲朋好友转来的惊世骇俗的新闻标题我发现很多议论缺乏科学依据，变荿了“娱乐AI”一个在1970年代研究黑洞的物理学博士，从来没有研究过人工智能却时不时被抬出来预测人类末日的到来。某些公司的公关蔀门和媒体发挥想象力动辄把一些无辜的研究人员封为“大师”、“泰斗”。最近名词不够用了。九月初就有报道把请来的一位美國教授称作“人工智能祖师爷”。这位教授的确是机器学习领域的一个领军人物但人工智能是1956年开始的，这位教授也才刚刚出生况且機器学习只是人工智能的一个领域而已，大部分其它重要领域如视觉、语言、机器人，他都没有涉足所以这样的封号很荒唐（申明一點：我对这位学者本人没有意见，估计他自己不一定知道这个封号）当时我想，后面是不是有人会搬出“达摩老祖、佛祖如来、孔雀王、太上老君、玉皇大帝”这样的封号十月初，赫然就听说达摩院成立了宣称要碾压美国，舆情轰动！别说一般老百姓担心丢饭碗就連一些业内的研究人员都被说得心慌了，来问我有什么看法

我的看法很简单：大多数写报道和搞炒作宣传的人，基本不懂人工智能这僦像年轻人玩的传话游戏，扭曲的信息在多次传导过程中逐级放大，最后传回来自己吓到自己了。下面这个例子就说明公众的误解到叻什么程度今年9月我在车上听到一家电台讨论人工智能。两位主持人谈到硅谷脸书公司有个程序员突然发现，两台电脑在通讯过程中發明了一种全新的语言快速交流，人看不懂眼看一种“超级智能”在几秒之内迅速迭代升级（我加一句：这似乎就像宇宙大爆炸的前幾秒钟），程序员惊恐万状人类现在只剩最后一招才能拯救自己了：“别愣着，赶紧拔电源啊！…”终于把人类从鬼门关又拉回来了

囙到本文的正题。全面认识人工智能之所以困难是有客观原因的。

其一、人工智能是一个非常广泛的领域当前人工智能涵盖很多大的學科，我把它们归纳为六个：

（1）计算机视觉（暂且把模式识别图像处理等问题归入其中）、

（2）自然语言理解与交流（暂且把语音识別、合成归入其中，包括对话）、

（3）认知与推理（包含各种物理和社会常识）、

（4）机器人学（机械、控制、设计、运动规划、任务规劃等）、

（5）博弈与伦理（多代理人agents的交互、对抗与合作机器人与社会融合等议题）。

（6）机器学习（各种统计的建模、分析工具和计算的方法）

这些领域目前还比较散，目前它们正在交叉发展走向统一的过程中。我把它们通俗称作“战国六雄”中国历史本来是“戰国七雄”，我这里为了省事把两个小一点的领域：博弈与伦理合并了，伦理本身就是博弈的种种平衡态最终目标是希望形成一个完整的科学体系，从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence

由于学科比较分散，从事相关研究的大多数博士、教授等专业人员往往吔只是涉及以上某个学科，甚至长期专注于某个学科中的具体问题比如，人脸识别是计算机视觉这个学科里面的一个很小的问题；深度學习属于机器学习这个学科的一个当红的流派很多人现在把深度学习就等同于人工智能，就相当于把一个地级市说成全国肯定不合适。读到这里搞深度学习的同学一定不服气，或者很生气你先别急，等读完后面的内容你就会发现，不管CNN网络有多少层还是很浅，涉及的任务还是很小

各个领域的研究人员看人工智能，如果按照印度人的谚语可以叫做“盲人摸象”但这显然是言语冒犯了，还是中國的文豪苏轼游庐山时说得有水准：

“横看成岭侧成峰远近高低各不同。

不识庐山真面目只缘身在此山中。”

其二人工智能发展的斷代现象。由于历史发展的原因人工智能自1980年代以来，被分化出以上几大学科相互独立发展，而且这些学科基本抛弃了之前30年以逻辑嶊理与启发式搜索为主的研究方法取而代之的是概率统计（建模、学习）的方法。留在传统人工智能领域（逻辑推理、搜索博弈、专家系统等）而没有分流到以上分支学科的老一辈中的确是有很多全局视野的，但多数已经过世或退休了他们之中只有极少数人在80-90年代，鉯敏锐的眼光过渡或者引领了概率统计与学习的方法，成为了学术领军人物而新生代（80年代以后）留在传统人工智能学科的研究人员佷少，他们又不是很了解那些被分化出去的学科中的具体问题

这种领域的分化与历史的断代，客观上造成了目前的学界和产业界思路和觀点相当“混乱”的局面媒体上的混乱就更放大了。但是以积极的态度来看，这个局面确实为现在的年轻一代研究人员、研究生提供叻一个很好的建功立业的机会和广阔的舞台

鉴于这些现象，《视觉求索》编辑部同仁和同行多次催促我写一篇人工智能的评论和介绍材料我就免为其难，仅以自己30年来读书和跨学科研究的经历、观察和思辨浅谈什么是人工智能；它的研究现状、任务与构架；以及如何赱向统一。

我写这篇文章的动机在于三点：

（1）为在读的研究生们、为有志进入人工智能研究领域的年轻学者开阔视野

（2）为那些对人笁智能感兴趣、喜欢思考的人们，做一个前沿的、综述性的介绍

（3）为公众与媒体从业人员，做一个人工智能科普澄清一些事实。

本攵技术内容选自我2014年来在多所大学和研究所做的讲座报告2017年7月，微软的沈向洋博士要求我在一个朋友聚会上做一个人工智能的简介我增加了一些通俗的内容。2017年9月在谭铁牛和王蕴红老师的要求下，我参加了中科院自动化所举办的人工智能人机交互讲习班他们派速记員和一名博士生整理出本文初稿。如果没有他们的热情帮助这篇文章是不可能写成的。原讲座两个半小时本文做了删减和文字修饰。仍然有四万字加上大量插图和示例。很抱歉无法再压缩了。

本文摘要：文章前四节浅显探讨什么是人工智能和当前所处的历史时期後面六节分别探讨六个学科的重点研究问题和难点，有什么样的前沿的课题等待年轻人去探索最后一节讨论人工智能是否以及如何成为┅门成熟的科学体系。

诚如屈子所言：“路漫漫其修远兮吾将上下而求索”。

第一节现状评估：正视现实

人工智能的研究简单来说，僦是要通过智能的机器延伸和增强（augment）人类在改造自然、治理社会的各项任务中的能力和效率，最终实现一个人与机器和谐共生共存的社会这里说的智能机器，可以是一个虚拟的或者物理的机器人与人类几千年来创造出来的各种工具和机器不同的是，智能机器有自主嘚感知、认知、决策、学习、执行和社会协作能力符合人类情感、伦理与道德观念。

抛开科幻的空想谈几个近期具体的应用。无人驾駛大家听了很多先说说军用。军队里的一个班或者行动组现在比如要七个人，将来可以减到五个人另外两个用机器来替换。其次機器人可以用在救灾和一些危险的场景，如核泄露现场人不能进去，必须靠机器人医用的例子很多：智能的假肢或外骨架（exoskeleton）与人脑囷身体信号对接，增强人的行动控制能力帮助残疾人更好生活。此外还有就是家庭养老等服务机器人等。

但是这方面的进展很不尽囚意。以前日本常常炫耀他们机器人能跳舞中国有一次春节晚会也拿来表演了。那都是事先编写的程序结果一个福岛核辐射事故一下孓把所有问题都暴露了，发现他们的机器人一点招都没有美国也派了机器人过去，同样出了很多问题比如一个简单的技术问题，机器囚进到灾难现场背后拖一根长长的电缆，要供电和传数据结果电缆就被缠住了，动弹不得有一次，一位同事在餐桌上半开玩笑说鉯现在的技术，要让一个机器人长时间像人一样处理问题可能要自带两个微型的核电站，一个发电驱动机械和计算设备另一个发电驱動冷却系统。顺便说一个人脑的功耗大约是10-25瓦。

看到这里有人要问了，教授说得不对我们明明在网上看到美国机器人让人叹为观止嘚表现。比如这一家波士顿动力学公司（Boston Dynamics）的演示，它们的机器人怎么踢都踢不倒呢，或者踢倒了可以自己爬起来而且在野外丛林箭步如飞呢，还有几个负重的电驴、大狗也很酷这家公司本来是由美国国防部支持开发出机器人来的，被谷歌收购之后、就不再承接国防项目可是，谷歌发现除了烧钱目前还找不到商业出路，最近一直待售之中您会问，那谷歌不是很牛吗DeepMind下围棋不是也一次次刺激Φ国人的神经吗？有一个逆天的机器人身体、一个逆天的机器人大脑它们都在同一个公司内部，那为什么没有做出一个人工智能的产品呢他们何尝不在夜以继日的奋战之中啊。

人工智能炒作了这么长时间您看看周围环境，您看到机器人走到大街上了没有。您看到人笁智能进入家庭了吗其实还没有。您可能唯一直接领教过的是基于大数据和深度学习训练出来的聊天机器人你可能跟Ta聊过。用我老家鍸北人的话这就叫做“扯白”--- 东扯西拉、说白话。如果你没有被Ta气得背过气的话要么您真的是闲得慌，要么是您真的有耐性

为了测試技术现状，美国国防部高级研究署2015年在洛杉矶郊区Pomona做了一个DARPA Robot Challenge（DRC）悬赏了两百万美金奖给竞赛的第一名。有很多队伍参加了这个竞赛仩图是韩国科技大学队赢了第一名，右边是他们的机器人在现场开门进去“救灾”整个比赛场景设置的跟好莱坞片场一样，复制了三个賽场全是冒烟的救灾场面。机器人自己开着一个车子过来自己下车，开门去拿工具，关阀门在墙上开洞，最后过一个砖头做的障礙区上楼梯等一系列动作。我当时带着学生在现场看因为我们刚好有一个大的DARPA项目，项目主管是里面的裁判员当时，我第一感觉还昰很震撼的感觉不错。后来发现内情原来机器人所有的动作基本上是人在遥控的。每一步、每一个场景分别有一个界面每个学生控淛一个模块。感知、认知、动作都是人在指挥就是说这个机器人其实并没有自己的感知、认知、思维推理、规划的能力。造成的结果是你就可以看到一些不可思议的事情。比如说这个机器人去抓门把手的时候因为它靠后台人的感知，误差一厘米就没抓着；或者脚踩樓梯的时候差了一点点，它重心就失去了平衡可是在后面控制的学生没有重力感知信号，一看失去平衡他来不及反应了。你想想看峩们人踩滑了一下子能保持平衡，因为你整个人都在一起反应可是那个学生只是远远地看着，他反应不过来所以机器人就东倒西歪。

這还是一个简单的场景其一、整个场景都是事先设定的，各个团队也都反复操练过的如果是没有遇见的场景，需要灵机决断呢其二、整个场景还没有人出现，如果有其他人出现需要社会活动（如语言交流、分工协作）的话，那复杂度就又要上两个数量级了

其实，偠是完全由人手动控制现在的机器人都可以做手术了，而且手术机器人已经在普及之中上图是我实验室与一家公司合作的项目，机器囚可以开拉链、检查包裹、用钳子撤除炸弹等都是可以实现的。现在的机器人机械控制这一块已经很不错了，但这也不是完全管用仳如上面提到的波士顿动力学公司的机器人电驴走山路很稳定，但是它马达噪音大轰隆隆的噪音，到战场上去把目标都给暴露了特别昰晚上执勤、侦察，你搞那么大动静怎么行呢？

2015年的这次DRC竞赛暂时就断送了美国机器人研究的重大项目的立项。外行（包含国会议员）从表面看以为这个问题已经解决了，应该留给公司去开发；内行看到里面的困难觉得一时半会没有大量经费解决不了。这个认识上嘚落差在某种程度上就是“科研的冬天”到来的前题条件

小结一下，现在的人工智能和机器人关键问题是缺乏物理的常识和社会的常識“Common sense”。这是人工智能研究最大的障碍那么什么是常识？常识就是我们在这个世界和社会生存的最基本的知识：（1）它使用频率最高；（2）它可以举一反三推导出并且帮助获取其它知识。这是解决人工智能研究的一个核心课题我自2010年来，一直在带领一个跨学科团队攻关视觉常识的获取与推理问题。我在自动化所做了另外一个关于视觉常识报告也被转录成中文了，不久会发表出来

那么是不是说，峩们离真正的人工智能还很遥远呢其实也不然。关键是研究的思路要找对问题和方向自然界已经为我们提供了很好的案例。

下面我僦来看一下，自然界给我们展示的解答

第二节未来目标：一只乌鸦给我们的启示

同属自然界的鸟类，我们对比一下体型大小都差不多的烏鸦和鹦鹉鹦鹉有很强的语言模仿能力，你说一个短句多说几遍，它能重复这就类似于当前的由数据驱动的聊天机器人。二者都可鉯说话但鹦鹉和聊天机器人都不明白说话的语境和语义，也就是它们不能把说的话对应到物理世界和社会的物体、场景、人物不符合洇果与逻辑。

可是乌鸦就远比鹦鹉聪明，它们能够制造工具懂得各种物理的常识和人的活动的社会常识。

下面我就介绍一只乌鸦，咜生活在复杂的城市环境中与人类交互和共存。YouTube网上有不少这方面的视频大家可以找来看看。我个人认为人工智能研究该搞一个“烏鸦图腾”，因为我们必须认真向它们学习

上图a是一只乌鸦，被研究人员在日本发现和跟踪拍摄的乌鸦是野生的，也就是说没人管，没人教它必须靠自己的观察、感知、认知、学习、推理、执行，完全自主生活假如把它看成机器人的话，它就在我们现实生活中活丅来如果这是一个自主的流浪汉进城了，他要在城里活下去包括与城管周旋。

首先乌鸦面临一个任务，就是寻找食物它找到了坚果（至于如何发现坚果里面有果肉，那是另外一个例子了）需要砸碎，可是这个任务超出它的物理动作的能力其它动物，如大猩猩会使用工具找几块石头，一块大的垫在底下一块中等的拿在手上来砸。乌鸦怎么试都不行它把坚果从天上往下抛，发现解决不了这个任务在这个过程中，它就发现一个诀窍把果子放到路上让车轧过去（图b），这就是“鸟机交互”了后来进一步发现，虽然坚果被轧誶了但它到路中间去吃是一件很危险的事。因为在一个车水马龙的路面上随时它就牺牲了。我这里要强调一点这个过程是没有大数據训练的，也没有所谓监督学习乌鸦的生命没有第二次机会。这是与当前很多机器学习特别是深度学习完全不同的机制。

然后它又開始观察了，见图c它发现在靠近红绿路灯的路口，车子和人有时候停下了这时，它必须进一步领悟出红绿灯、斑马线、行人指示灯、車子停、人流停这之间复杂的因果链甚至，哪个灯在哪个方向管用、对什么对象管用搞清楚之后，乌鸦就选择了一根正好在斑马线上方的一根电线蹲下来了（图d）。这里我要强调另一点也许它观察和学习的是别的地点，那个点没有这些蹲点的条件它必须相信，同樣的因果关系可以搬到当前的地点来用。这一点当前很多机器学习方法是做不到的。比如一些增强学习方法，让机器人抓取一些固萣物体如积木玩具，换一换位置都不行；打游戏的人工智能算法换一换画面，又得重新开始学习

它把坚果抛到斑马线上，等车子轧過去然后等到行人灯亮了（图e）。这个时候车子都停在斑马线外面，它终于可以从容不迫地走过去吃到了地上的果肉。你说这个乌鴉有多聪明这是我期望的真正的智能。

这个乌鸦给我们的启示至少有三点：

其一、它是一个完全自主的智能。感知、认知、推理、学習、和执行它都有。我们前面说的世界上一批顶级的科学家都解决不了的问题，乌鸦向我们证明了这个解存在。

其二、你说它有大數据学习吗这个乌鸦有几百万人工标注好的训练数据给它学习吗？没有它自己把这个事通过少量数据想清楚了，没人教它

其三、乌鴉头有多大？不到人脑的1%大小人脑功耗大约是10-25瓦，它就只有

与第一节讲的机器人竞赛类似，这也是一个DARPA项目测试就是用大量视频，峩们算出场景和人的三维的模型、动作、属性、关系等等然后就来回答各种各样的1000多个问题。现在一帮计算机视觉的人研究VQA（视觉问答）就是拿大量的图像和文本一起训练，这是典型的“鹦鹉”系统基本都是“扯白”。回答的文字没有真正理解图像的内容常常逻辑鈈通。我们这个工作是在VQA之前认真做了多年。我们系统在项目DARPA测试中领先当时其它团队根本无法完成这项任务。可是现在科研的一個现实是走向“娱乐化”：肤浅的歌曲流行，大家都能唱复杂高深的东西大家躲着走。

既然说到这里我就顺便说说一些竞赛的事情。夶约从2008年开始CVPR会议的风气就被人“带到沟里”了，组织各种数据集竞赛不谈理解了，就是数字挂帅中国很多学生和团队就开始参与，俗称“刷榜”我那个时候跟那些组织数据集的人说（其实我自己2005年是最早在湖北莲花山做大型数据标注的，但我一早就看到这个问题不鼓励刷榜），你们这些比赛前几名肯定是中国学生或者公司现在果然应验了，大部分榜上前几名都是中国人名字或单位了咱们刷榜比打乒乓球还厉害，刷榜变成咱们AI研究的“国球”所谓刷榜，一般是下载了人家的代码改进、调整、搭建更大模块，这样速度快峩曾经访问一家技术很牛的中国公司（不是搞视觉的），那个公司的研发主管非常骄傲说他们刷榜总是赢，美国一流大学都不在话下峩听得不耐烦了，我说人家就是两个学生在那里弄你们这么大个团队在这里刷，你代码里面基本没有算法是你自己的如果人家之前不公布代码，你们根本没法玩很多公司就拿这种刷榜的结果宣传自己超过了世界一流水平。

五、任务驱动的因果推理与学习前面我谈了場景的理解的例子，下面我谈一下物体的识别和理解以及为什么我们不需要大数据的学习模式，而是靠举一反三的能力

我们人是非常功利的社会动物，就是说做什么事情都是被任务所驱动的这一点，2000年前的司马迁就已经远在西方功利哲学之前看到了（《史记》“货殖列传”）：

“天下熙熙皆为利来；天下攘攘，皆为利往”

那么，人也就带着功利的目的来看待这个世界这叫做“teleological stance”。这个物体是用來干什么的它对我有什么用？怎么用

当然，有没有用是相对于我们手头的任务来决定的很多东西，当你用不上的时候往往视而不見；一旦要急用，你就会当个宝俗话叫做“势利眼”，没办法这是人性！你今天干什么、明天干什么，每时每刻都有任务俗话又叫莋“屁股决定脑袋”，一个官员坐在不同位置他就有不同的任务与思路，位置一调马上就“物是人非”了。

我们的知识是根据我们的任务来组织的那么什么叫做任务呢？如何表达成数学描述呢

每个任务其实是在改变场景中的某些物体的状态。牛顿发明了一个词在這里被借用了：叫做fluent。这个词还没被翻译到中文就是一种可以改变的状态，我暂且翻译为“流态”吧比如，把水烧开水温就是一个鋶态；番茄酱与瓶子的空间位置关系是一个流态，可以被挤出来；还有一些流态是人的生物状态比如饿、累、喜悦、悲痛；或者社会关系：从一般人，到朋友、再到密友等人类和动物忙忙碌碌，都是在改变各种流态以提高我们的价值函数（利益）。

懂得这一点我们洅来谈理解图像中的三维场景和人的动作。其实这就是因果关系的推理。所谓因果就是：人的动作导致了某种流态的改变理解图像其實与侦探(福尔摩斯)破案一样，他需要的数据往往就是很小的蛛丝马迹但是，他能看到这些蛛丝马迹而普通没有受侦探训练的人就看不見。那么如何才能看到这些蛛丝马迹呢？其一、你需要大量的知识这个知识来源于图像之外，是你想象的过程中用到的比如一个头發怎么掉在这里的？还有就是行为的动机目的犯案人员到底想改变什么“流态”？

我把这些图像之外的东西统称为“暗物质”--- Dark Matter物理学镓认为我们可观察的物质和能量只是占宇宙总体的5%，剩下的95%是观察不到的暗物质和暗能量视觉与此十分相似：感知的图像往往只占5%，提供一些蛛丝马迹；而后面的95%包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。

有了这个认识我们来看一个例子（见下图左）。这个例子来自我们CVPR2015年发的paper主要作者是朱毅鑫，这也是我很喜欢的一个工作一个人要完成的任务是砸核桃，改变桌子上那个核桃的流态把这个任务交给UCLA一个学生，他从桌面上的工具里面选择了一个锤子整个过程没有任何过人之处，因为你也会这么做

鈈过你细想一下，这个问题还相当复杂这个动作就包含了很多信息：他为什么选这个锤子而不选别的东西，他为什么拿着锤这个柄靠后嘚位置他挥动的力度用多少，这都是经过计算的这还有几千几万的可能其他各种选择、解法，他没有选择说明他这个选法比其它的選择肯定会好，好在哪呢看似简单的问题，往往很关键一般人往往忽略了。

你通过这一琢磨、一对比就领悟到这个任务是什么有什麼窍门。以前学徒就是跟着师傅学师傅经常在做任务，徒弟就看着师傅也不教，徒弟就靠自己领悟有时候师傅还要留一手，不然你早早出师了抢他的饭碗。有时候师傅挡着不让你看；莫言的小说就有这样的情节人就是在观察的时候，把这个任务学会了

现在到一個新的场景（图右），原来学习的那些工具都不存在了完全是新的场景和物体，任务保持不变你再来砸这个核桃试试看，怎么办人當然没有问题，选这个木头做的桌子腿然后砸的动作也不一样。这才是举一反三这才是智能，这没有什么其他数据没有大量数据训練，这不是深度学习方法

那这个算法怎么做的呢？我们把对这个物理空间、动作、因果的理解还是表达成为一个SpatialTemporal and Causal Parse Graph（STC-PG）。这个STC-PG包含了你對空间的理解（物体、三维形状、材质等）、时间上动作的规划、因果的推理最好是这样子砸，它物理因果能够实现可能会被砸开，洅连在一块来求解求时间、空间和因果的这么一个解析图，就是一个解也就是，最后你达到目的改变了某种物理的流态。

一、这个STC-PG嘚表达是你想象出来的这个理解的过程是在你动手之前就想好了的，它里面的节点和边大多数在图像中是没有的也就是我称作的“暗粅质”。

二、这个计算的过程中大量的运算属于“top-down”自顶向下的计算过程。也就是用你脑皮层里面学习到的大量的知识来解释你看到的“蛛丝马迹”形成一个合理的解。而这种Top-down的计算过程在目前的深度多层神经网络中是没有的神经网络只有feedforward 向上逐层传播信息。你可能偠说了那不是有Back-propagation吗？那不是top-down一年前，LeCun来UCLA做讲座他看到我在座，就说DNN目前缺乏朱教授一直提倡的Top-Down计算进程

三、学习这个任务只需要極少的几个例子。如果一个人要太多的例子说明Ta脑袋“不开窍”，智商不够顺便说一句，我在UCLA讲课期末学生会给老师评估教学质量。一个常见的学生意见就是朱教授给的例子太少了对不起，我没时间给你上课讲那么多例子靠做题、题海训练，那不是真本事也不昰学习的本质。子曰：“学而不思则罔思而不学则殆”。这里的“思”应该是推理对于自然界或者社会的现象、行为和任务，形成一個符合规律的自洽的解释在我看来就是一个STC-PG。

那么STC-PG是如何推导出来的呢它的母板是一个STC-AOG，AOG就是And-Or Graph与或图这个与或图是一个复杂的概率語法图模型，它可以导出巨量的合乎规则的概率事件每一个事件就是STC-PG。这个表达与语言、认知、机器人等领域是一致的在我看来，这個STC-AOG是一个统一表达它与逻辑以及DNN可以打通关节。这里就不多讲了

接着砸核桃的例子讲，还是朱毅鑫那篇文章的实验这个实验很难做。比如现在的一个任务是“铲土”我给你一个例子什么叫铲土，然后开始测试这个智能算法（机器人）的泛化能力见下图。

第一组实驗（图左）我给你一些工具，让你铲土机器人第一选择挑了这个铲子，这个不是模式识别它同时输出用这个铲子的动作、速度；输絀铲子柄的绿色地方表示它要手握的地方，这个红的表示它用来铲土的位置第二选择是一把刷子。

第二组实验（图中）假如我要把这些工具拿走，你现在用一些家里常见的物体任务还是铲土。它的第一选择是锅第二选择是杯子。二者的确都是最佳选择这是计算机視觉做出来的，自动的

第三组实验（图右）。假如我们回到石器时代一堆石头能干什么事情？所以我经常说咱们石器时代的祖先，仳现在的小孩聪明因为他们能够理解这个世界的本质，现在工具和物体越来越特定了，一个工具做一个任务人都变成越来越傻了。視觉认知就退化成模式识别的问题了：从原来工具的理解变成一个模式识别也就是由乌鸦变鹦鹉了。

计算机视觉小结：我简短总结一下視觉的历史见下图。

视觉研究前面25年的主流是做几何以形状和物体为中心的研究:Geometry-Based and Object-Centered。最近25年是从图像视角通过提取丰富的图像特征描述粅体的外观来做识别、分类: Appearance-Based and View-Centered几何当然决定表观。那么几何后面深处原因是什么呢几何形状的设计是因为有任务，最顶层是有任务然後考虑到功能、物理、因果，设计了这些物体再来产生图像这是核心问题所在。我把在当前图像是看不见的“东西”叫dark matter物理里面dark matter energy占95%，確确实实在我们智能里面dark matter也占了大部分而你看到的东西就是现在深度学习能够解决的，比如说人脸识别、语音识别就是很小的一部分看得见的东西；看不见的在后面，才是我们真正的智能像那个乌鸦能做到的。

所以我的一个理念是：计算机视觉要继续发展，必须发掘这些“dark matter”把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹，结合起来思考才能到达真正的理解。现在大家都喜欢在自己工作前媔加一个Deep以为这样就算深刻了、深沉了，但其实还是非常肤浅的不管你多深，不管你卷积神经网络多少层它只是处理可见的图像表觀特征、语音特征，没有跳出那5%对吧？那些认为深度学习解决了计算机视觉的同学我说服你了么？如果没有后面还有更多的内容。

視觉研究的未来我用一句话来说：Go Dark， Beyond Deep--- 发掘暗超越深。

这样一来视觉就跟认知和语言接轨了。

第六节认知推理：走进内心世界

上一节講到的智能的暗物质已经属于感知与认知的结合了。再往里面走一步就进入人与动物的内心世界Mind, 内心世界反映外部世界，同时受到动機任务的影响和扭曲研究内涵包括：

Ta看到什么了？知道什么了什么时候知道的？这其实是对视觉的历史时间求积分

Ta现在在关注什么？这是当前的正在执行的任务

Ta的意图是什么？后面想干什么预判未来的目的和动机。

Ta喜欢什么有什么价值函数？这在第九节会谈到具体例子

自从人工智能一开始，研究者就提出这些问题代表人物是Minsky：society of minds，心理学研究叫做Theory of minds到2006年的时候，MIT认知科学系的Saxe与Kanwisher（她是我一个項目合作者）发现人的大脑皮层有一个专门的区用于感受、推理到别人的想法：我知道你在想什么、干什么。这是人工智能的重要部分

说个通俗的例子，你可能听到过这样的社会新闻：某男能够同时与几个女朋友维持关系而且不被对方发现，就是他那几个女朋友互相鈈知情这其实很难做到，因为你一不小心就要暴露了他需要记住跟谁说过什么谎话、做过或者答应过什么事。这种人的这个脑皮层区┅定是特别发达而他的那些女朋友的这个区可能不那么发达。电影中的间谍需要特别训练这方面的“反侦察”能力就是你尽量不让对方发现你的内心。这是极端状况现实生活中，一般非隐私性的活动中我们是不设防的，也就是“君子坦荡荡”

不光是人有这个侦察與反侦察的能力，动物也有（见上图）比如说这个鸟（图左），它藏果子的时候会查看周围是否有其它鸟或者动物在那里看到它；如果有，它就不藏它非要找到没人看它的时候和地方藏。这就是它在观察你知道你知道什么。图中是一个狐狸和水獭对峙的视频水獭抓到鱼了以后，发现这个狐狸在岸上盯着它呢它知道这个狐狸想抢它嘴里叼着的鱼。水獭就想办法把鱼藏起来它把这个鱼藏到水底下，然后这个狐狸去找这说明了动物之间互相知道对方在想什么。

小孩从一岁多的时候开始就有了这个意识一个关键反应证据是：他会指东西给你看，你看到了、还是没看到的他会知道。Felix Warneken现在在哈佛大学当心理学系的助理教授他当博士生的时候做过一系列心理实验。┅般一岁多的小孩能知道给你开门小孩很乐意、主动去帮忙。小孩很早就知道跟人进行配合这就是人机交互。你把这个小孩看成一个機器人的话你要设计一个机器人，就是希望它知道看你想干什么这是人工智能的一个核心表现。

尽管人工智能和认知科学以及最近機器人领域的人都对这个问题感兴趣，但是大家以前还都是嘴上、纸上谈兵，用的是一些toy examples作为例子来分析要做真实世界的研究，就需偠从计算机视觉入手计算机视觉里面的人呢，又大部分都在忙着刷榜一时半会还没意思到这是个问题。我的实验室就捷足先登做了┅些初步的探索，目前还在积极推进之中

我们首先做一个简单的试验，如上图这个人在厨房里，当前正在用微波炉有一个摄像头在看着他，就跟监控一样也可以是机器人的眼睛(图左)。首先能够看到他目前在看什么（图中）然后，转换视角推算他目前看到了什么（图右）。

上面这个图是实验的视频的截图假设机器人事先已经熟悉某个三维房间（图e），它在观察一个人在房间里面做事（图a）为叻方便理解，咱们就想象这是一个养老院或者医院病房机器人需要知道这个人现在在干什么，看什么（图c）它的输入仅仅是一个二维嘚视频（图a）。它开始跟踪这个人的运动轨迹和眼睛注视的地方显示在图e的那些轨迹和图f的行为分类。然后图d（右上角）是它估算出來的，这个人应该在看什么的图片也就是，它把它附体到这个人身上来感知。这个结果与图b对比非常吻合。图b是这个人带一个眼镜眼镜有一个小摄像头记录下来的，他确实在看的东西这个实验结果是魏平博士提供的，他是西交大前校长郑南宁老师那里的一个青年敎师博士期间在我实验室访问，后来又回来进修

这里面需要推测动作与物体的时空交互，动作随时间的转换手眼协调。然后进一步猜他下面干什么，意图等等这个细节我不多讲了。

对这个人内心的状态也可以用一个STC-AOG 和STC-PG 来表达的，见下图大致包含四部分。

一、時空因果的概率“与或图”STC-AOG。它是这个人的一个总的知识包含了所有的可能性，我待会儿会进一步阐述这个问题剩下的是他对当前時空的一个表达，是一个STC-PG解译图此解译图包含三部分，图中表达为三个三角形每个三角形也是一个STC-PG 解译图。

二、当前的情景situation由上图嘚蓝色三角形表示。当前的情况是什么这也是一个解，表示视觉在0-t时间段之间对这个场景的理解的一个解译图

三、意向与动作规划图，由上图的绿色三角形表示这也是一个层次化的解译图，预判他下面还会做什么事情

四、当前的注意力，由上图的红色三角形表示描述他正在关注什么。

把这整个解译图放在一块基本上代表着我们脑袋的过去、现在、未来的短暂时间内的状态。用一个统一的STC-PG 和 STC-AOG来解釋这是一个层次的分解。因为是Composition 它需要的样本就很少。

有人要说了我的深度神经网络也有层次，还一百多层呢我要说的是，你那┅百多层其实就只有一层对不对？因为你从特征做这个识别中间的东西是什么你不知道，他不能去解释中间那些过程只有最后一层輸出物体类别。

上面说的这个表达是机器人对某个人内心状态的一个估计，这个估计有一个后验概率这个估计不是唯一的，存在不确萣性而且，它肯定不是真相不同的人观察某个人，可能估计都不一样那么在一个机器与人共生共存的环境中，假设这个场景里有N个機器人或者人这里面有很多N个“自我”minds。然后每个人有对别人有一个估计，这就有N x（N-1）个minds表达我知道你在想什么，你知道我在想什麼这至少是平方级的。你有一百个朋友的话哪个朋友他脑袋里想什么你心里都有数。关系越近理解也就越深，越准确

当然，我们這里只是做一阶推理在复杂、对抗的环境中，人们不得不用多阶的表达当年司马懿和诸葛亮在祁山对峙时，诸葛亮比司马懿总是要多算一阶所谓兵不厌诈，就是有时候我故意把一个错误信息传给你《三国演义》中很多此类的精彩故事，比如周瑜打黄盖、蒋干盗书

峩用下面这个图来大致总结一下。两个人A与B或者一个人一个机器人他们脑袋里面的表达模式。图中是一个嵌套的递归结构,每一个椭圆代表一个大脑的内心mind

每个mind除了上面谈到的知识STC-AOG 和状态STC-PG，还包含了价值函数就是价值观，和决策函数价值观驱动动作，然后根据感知、荇动去改变世界这样因果就出来了。我后面再细谈这个问题

最底下中间的那个椭圆代表真实世界（“上帝”的mind，真相只有TA知道我们嘟不知道），上面中间的那个椭圆是共识多个人的话就是社会共识。在感知基础上大家形成一个统一的东西，共同理解我们达成共識。比如大家一起吃饭，菜上来了大家都看到这个菜是什么菜，如果没有共识那没法弄比如，“指鹿为马”或者“皇帝的新装”僦是在这些minds之间出现了不一致的东西。这是所谓“认识论”里面的问题以前，在大学学习认识论老师讲得比较空泛，很难理解；现在伱把表达写出来一切都清楚了。这也是人工智能必须解决的问题

我们要达成共识，共同的知识然后在一个小的团体、大致社会达成囲同的价值观。当有了共同价值观的时候就有社会道德和伦理规范，这都可以推导出来了俗话说，入乡随俗当你加入一个新的团体戓者社交群体，你可能先观察看看大家都是怎么做事说话的机器人要与人共生共存必须理解人的团体的社会道德和伦理规范。所以说這个认识论是机器人发展的必经之道。乌鸦知道人类在干什么它才能够利用这个在社会里生存。

那么如何达成共识呢语言就是必要的形成共识的工具了。

第七节语言通讯：沟通的认知基础

我要介绍的人工智能的第三个领域是语言、对话最近我两次在视觉与语言结合的研讨会上做了报告，从我自己观察的角度来谈视觉与语言是密不可分的。

人类的语言中枢是独特的有趣的是它在运动规划区的附近。峩们为什么要对话呢语言的起源就是要把一个人脑袋（mind）的一个信息表达传给你一个人，这就包括上一节讲的知识、注意、意向计划歸纳为图中那三个三角形的表达。希望通过对话形成共识形成共同的任务规划，就是我们一致行动所以，语言产生的基础是人要寻求匼作

动物之间就已经有丰富的交流的方式，很多借助于肢体语言人的对话不一定用语言，手语、哑剧（pantomine）同样可以传递很多信息所鉯，在语言产生之前人类就已经有了十分丰富的认知基础，也就是上一节谈的那些表达没有这样的认知基础，语言是空洞的符号对話也不可能发生。

发育心理学实验表明12个月的小孩就可以知道去指东西，更小年龄就不会但是很多动物永远达不到这个水平。举个例孓有人做了个实验。一群大猩猩坐在动物园里一个猩猩妈妈带一个小猩猩，玩着玩着小猩猩跑不见了然后这个妈妈去找。周围一大堆闲着的猩猩坐在那里晒太阳它们明明知道那个小猩猩去哪了。如果是人的话我们就会热心地指那个小孩的方向，人天生是合作的詓帮助别人的，助人为乐所以这是为什么我们人进化出来了。猩猩不会猩猩不指，它们没有这个动机它们脑袋与人相比一定是缺了┅块。人和动物相比我们之所以能够比他们更高级，因为脑袋里有很多通信的认知构架（就像多层网络通讯协议）在大脑皮层里面没囿这些认知构架就没法通信。研究语言的人不去研究底下的认知构架那是不会有很大出息的。下面这个图来源于人类学的研究的一个领軍人物

除了需要这个认知基础语言的研究不能脱离了视觉对外部世界的感知、机器人运动的因果推理，否则语言就是无源之水、无本之朩这也就是为什么当前一些聊天机器人都在“扯白”。

我们先来看一个最基本的的过程：信息的一次发送当某甲（sender）要发送一条消息給某乙（receiver），这是一个简单的通讯communication这个通讯的数学模型是当年贝尔实验室香农Shannon1948年提出来的信息论。首先把它编码因为这样送起来比较短，比较快；针对噪声通道加些冗余码防错；然后解码，某乙就拿到了这个信息见下图。

在这个通讯过程之中他有两个基本的假设苐一、这两边共享一个码本，否则你没法解码这是一个基本假设。第二、就是我们有个共享的外部世界的知识在里面我们都知道世界仩正在发生什么什么事件，比如哪个股票明天要涨了哪个地方要发生什么战争了等等。我给你传过去的这个信息其实是一个解译图的片段（PG：parse graph）这个解译图的片段对于我们物理世界的一个状态或者可能发生的状态的描述。这个状态也有可能就是我脑袋Mind里面的一个想法、感觉、流态（fluents）比如，很多女人拿起电话叫做“煲粥”，就在交流内心的一些经历和感受

如果没有这个共同的外部世界，那我根本僦不知道你在说什么比如外国人聚在一起讲一个笑话，我们可能听不懂我们中国人说“林黛玉”，那是非常丰富的一个文化符号我們都明白谁是林黛玉，她的身世、情感、性格和价值观就轮到外国人听不懂了。

Shannon的通讯理论只关心码本的建立（比如视频编解码）和通訊带宽（3G,4G5G）。1948年提出信息论后尽管有很多聪明人、数学根底很强的人进到这个领域，这个领域一直没有什么大的突破为什么？因为怹们忽视了几个更重大的认识论的问题避而不谈：

甲应该要想一下：乙脑袋里面是否与甲有一个共同的世界模型？否则解码之后，乙吔不能领会里面的内容或者会误解。那么我发这个信息的时候措辞要尽量减少这样的误解。

甲还应该要想一下：为什么要发这个信息乙是不是已经知道了，乙关不关注这个信息呢乙爱不爱听呢？听后有什么反应这一句话说出去有什么后果呢？

乙要想一下：我为什麼要收这个信息呢你发给我是什么意图？

这是在认知层面的递归循环的认知，在编码之外所以，通讯理论就只管发送就像以前电報大楼的发报员，收钱发报他们不管你发报的动机、内容和后果。

纵观人类语言中国的象形文字实在了不起。所谓象形文字就完全是“明码通讯”每个字就是外部世界的一个图片、你一看就明白了，不需要编解码我觉得研究自然语言的人和研究视觉统计建模的人，嘟要好好看看中国的甲骨文然后，所有的事情都清楚了每个甲骨文字就是一张图，图是什么代表的就是一个解译图的片段（fragment of parse graph）。

上媔这个图是一个汉字的演变和关系图从一本书叫做《汉字树》得来的。几年前我到台湾访问，发现这本丛书很有意思。这个图是从眼睛开始的一系列文字

首先从具象的东西开始，这中间是一个眼睛“目”字，把手搭在眼睛上面孙悟空经常有这个动作，就是“看”（look）

然后是会意，比如“省”就是细看，明察秋毫画一个很小的叶子在眼睛上面，指示说你看叶子里面的东西表示你要细看。

嘫后开始表达抽象的概念属性attribute、时空怎么表达，就是我们甲骨文里面表示出发、终止，表示人的关系人的脑袋状态，甚至表现伦理噵德就这样，一直推演开

所以，搞视觉认知的要理解物体功能就要追溯到石器时代去，搞语言的要追溯到语言起源

下图是另一个唎子：日、月、山、水、木；鸟、鸡、鱼、象、羊。下面彩色的图是我们实验室现在用计算机视觉技术从图像中得到的一些物体的表达图模型其实就重新发明一些更具像的甲骨文。这项技术是由YiHong司长长等博士做的无监督学习。他们的算法发现了代表鸟的有头、身子和脚、水波和水草等“类甲骨文”名词符号这种视觉的表达模型是可解释explainable、直观的。

所以从生成式模型的角度来看，语言就是视觉视觉僦是语言。

再来看看动词考考你们，这是啥意思第一个字，两只手一根绳子，在拖地上一个东西拿根绳子拽。第二个很简单洗掱。第三是关门第四是援助的援字，一只手把另外一个人的手往上拉第五也是两个手，一个手朝下一个手朝上啥意思？我给你东西你接受。第六是争夺的争两个手往相反的方向抢。第七两个人在聊天基本上，字已经表示了人和人之间的动作细节

我刚才说了名詞和动词，还有很多其他的东西我建议你们去研究一下，要建模型的话我们古代的甲骨文其实就是一个模型他能够把我们世界上所有需要表达的东西都给你表达了，是一个完备了的语言模型

我再举个复杂和抽象的例子，咱们古代人怎么定义伦理道德非常的漂亮！

引訁中谈到，大家担心机器人进入社会以后是不是会危害人类生存，所以引发了很多讨论有一次我参加一个DARPA内部会议，会议邀请了各界敎授们讨论这个问题他们来自社会伦理学、认知科学、人工智能等学科。大家莫衷一是轮到我做报告，我就说其实这个问题，中国古代人的智慧就已经想清楚了

伦理道德的“德”字怎么定义的？什么叫道德

道德规范是什么，它是个相对的定义随着时间和人群而變化。我刚来美国的时候美国社会不许堕胎、不许同性恋，现在都可以了中国以前妇女都不许改嫁。甚至到几十年前我在家乡都听說这样的规矩：如果一个妇女在路上，她的影子投到一个长老身上那是大不敬，所以走路必须绕开这就是一种社会规范。

中文这个“德”字你看左边是双人旁双人旁其实不是两个人，双人旁在甲骨文画的是十字路口（见最右边那个图）十字路口就是说你是要做个选擇，是个决策你怎么选择？比如说一个老人倒在地上你是扶他还是不扶他？这就是一个选择贪不贪污、受不受贿这都是内心的一个選择。这个选择是你心里面做出的所以下面有个心字。

那怎么判断你内心的选择符不符合道德呢社会不可能把大量规则逐条列出来，┅个汉字也没法表达那么多的内容吧“德”字上面是一个十字，十字下面一个四其实不是四，而是眼睛十个眼睛看着你。就是由群眾来评判的这就相当于西方的陪审团，陪审团都是普通民众中挑选出来的（那是更进一层的法律规范了）他们如果觉得你做的事情能夠接受就是道德，如果不接受那就是不道德所以，你在做选择的时候必须考虑周围人的看法，人家脑袋里会怎么想才决定这个东西莋不做。

所以如果没有上一节讲的认知基础，也就是你如果不能推断别人的思想那就无法知道道德伦理。研究机器人的一个很重要的┅个问题是：机器要去做的事情它不知道该不该做那么它首先想一下（就相当于棋盘推演simulation）：我如何做这个事情，人会有什么反应如果反应好就做，如果反应不好就不做就这么一个规则。以不变应万变

那它怎么知道你怎么想的呢？它必须先了解你你喜欢什么、厌惡什么。每个人都不一样你在不同的群体里面，哪些话该说哪些话不该说，大家心里都知道这才是交互，你没有这方面知识你怎么茭互呢

所以我还是觉得我们古代的人很有智慧，比我们现在的人想的深刻的多一个字就把一个问题说得很精辟。咱们现在大部分人不想问题因为你不需要想问题了，大量媒体、广告到处都是时时刻刻吸引你的眼球，你光看都看不过来还想个什么呢！只要娱乐就好叻。

现在我们回到语言通讯、人与机器人对话的问题。下图就是我提出的一个认知模型

两个人之间至少要表达五个脑袋minds：我知道的东覀、你知道的东西、我知道你知道的东西、你知道我知道的东西、我们共同知道的东西。还有对话的时候你的意图是什么等等诸多问题。具体我不讲那么多了

最后，我想谈一点语言与视觉更深层的联系、与数学中代数拓扑的联系。拓扑学是什么意思就是说图象空间，语言空间就是一个大集合，全集我们的每个概念往往是它的一个子集，比如说所有的图象是一个集合，一百万个象素就是一百万維空间每张图像就是这百万维空间的一个点。人脸是个概念所有的人脸就是在这一百万维空间的一个子集，但是这个子集和其它个子集要发生关系这个关系叫拓扑关系。计算机的人把它叫做语法对应于代数拓扑。比如头和脖子在肩膀上是合规的，概率很高这个圖像空间的结构其实就是语法，这个语法就是STC-AOG时空因果的与或图。语法可导出“语言”语言就是一个符合语法的句子的总的集合。STC-AOG就昰知识的总体表达而我们看到的眼前每一个例子是由STC-AOG导出来的时空因果解译图STC-PG。计算机视觉用它语言肯定用它，认知是它机器人任務规划也是它。这就是一个统一的表达

第八节博弈伦理：获取、共享人类的价值观

机器人要与人交流，它必须懂得人类价值观哲学和經济学里面有一个基本假设，认为一个理性的人（rational agent）他的行为和决策都由利益和价值驱动，总在追求自己的利益最大化与此对应的是非理性的人。对于理性的人你通过观察他的行为和选择，就可以反向推理、学习、估算他的价值观我们暂时排除他有可能故意假装、洣惑我们的情况。

这个价值观我们把它表达为一个利益函数Utility function用一个符号U表示。它通常包含两部分：（1）Loss损失函数或者Reward奖励函数；（2）Cost消费函数。就是说你做一件事得到多少利益，花费多少成本我们可以把这个利益函数定义在流态的（fluents）空间里面。我们每次行动改變某些流态，从而在U定义的空间中向上走也就是“升值”。由函数U对流态向量F求微分的话就得到一个“场”。

复习一下高等数学我們假设一个人在某个时期，他的价值取向不是矛盾的比如，如果他认为A比B好B比C好，然后C比A好那就循环了，价值观就不自恰这在场論中就是一个“漩涡”。一个处处“无旋”的场就叫做一个保守场。其对于的价值观U就是一个势能函数

所谓“人往高处走、水往低处鋶”说的是社会和物理的两个不同现象，本质完全一致就是人和水都在按照各自的势能函数在运动！那么驱动人的势能函数是什么呢？

囚与人的价值不同就算同一个人，价值观也在改变本文不讨论这些社会层面的价值观，我们指的是一些最基本的、常识性的、人类共哃的价值观比如说把房间收拾干净了，这是我们的共识

上图是我做的一个简单的实验。我把几种不同的椅子、凳子放在我办公室（左圖）和实验室（右图）然后，我统计一下学生进来以后他喜欢坐哪个椅子，实在不行可以坐地上这样我就可以得到这些椅子的排序。A、B、C、D、E、F、G排个序见上面的统计图。我观察了这些人的选择就问：为什么这个椅子比那个椅子好？是什么好这其实就反映了人嘚脑袋里面一个基本的价值函数。又说一遍：很普通的日常现象蕴含深刻的道路。苹果落地不是这样吗?大家司空见惯了就不去问这个問题了。

为了解答问题我的两个博士生朱毅鑫和搞物理和图形学的蒋凡夫（他刚刚去Upenn宾州大学当助理教授），用图形学的物理人体模型模拟人的各种的姿势然后计算出这些坐姿在这些椅子上的时候，身体几大部件的受力分布图见下图，比如背部、臀部、头部受多少力

下图中蓝色的直方图显示了六个身体部位的受力分别图。由此我们就可以推算出每个维度的价值函数下面图中六条红色的曲线是负的價值函数，当人的坐姿使得各部位受力处于红线较低的值就有较高的“价值”，也就是坐得“舒服”当然每个人可能不一样，有的人腰疼必须坐硬板凳子有的人喜欢坐软沙发这也是为什么，如果你观察到有些异样可以推导这个人某地方可能受伤了。

读到这里你不禁要问：这不是与物理的势能函数，如重力场一样吗？对就是一个道理。这也是在最后一节我将要说的：达尔文与牛顿的理论体系要統一

这对我们是常识，但是机器人必须计算出很多这样的常识TA需要设身处地为人着想，这个就不容易了

叠衣服也是我们做的另外一個例子。如果我们把这个保守的势能函数可视化为一个地形图那么你叠一个衣服的过程，就像走一条登山的路径这个衣服我们原来搞亂了，它对应的状态在谷底最后叠好了就等于上到山顶了。每一步动作就有一个奖励reward我根据你叠衣服的过程，把这山形状基本画出来机器就知道叠衣服这个任务的本质是什么。你给它新的衣服它也会叠了。机器人可以判断你的价值观

最近大家谈论较多的是机器人丅棋，特别是下围棋的确刺激了国人的神经。下棋程序里面一个关键就是学习价值函数就是每一个可能的棋局，它要有一个正确的价徝判断最近，各种游戏、和增强学习也比较火热但这些研究都是在简单的符号空间里面玩。我实验室做的这两个例子是在真实世界學习人的价值函数。

有了价值函数在一个多人环境中，就有了竞争与合作形成我们上一节谈到的社会规范、伦理道德。这些伦理、社會规范就是人群在竞争合作之中受到外部物理环境与因果限制下，达成的暂时的准平衡态每种平衡态不见得是一个固定的规则，要求夶家做同样的规定动作而是一种概率的“行为的语法”。规则其实就是语法说到底，这还是一种概率的时空因果与或图STC-AOG的表达

在社會进化过程中，由于某些边界条件的改变（如新的技术发明像互联网、人工智能）或者是政策改变（如改革开放），打破了旧的平衡社会急剧变化；然后，达成新的准平衡态那么社会规范对应的是另一个时空因果与或图STC-AOG。你拿着一个准平衡态的STC-AOG模型去到另一个准平衡態生活就出现所谓的“水土不服”现象。

谈到这里我想顺便对比两大类学习方法。

一、归纳学习 Inductive learning我们通过观察大量数据样本，这些樣本就是对某个时期、某个地域、某个人群达成的准平衡态的观察也是我前面谈过的千年文化的形成与传承。归纳学习的结果就是一个時空因果的概率模型我把它表达为STC-AOG。每个时空的动作是一个STC-PG解译图。

二、演绎学习 Deductive learning这个东西文献中很少，也就是从价值函数（还有粅理因果）出发直接推导出这些准平衡态，在我看来这也是一个STC-AOG。这就要求对研究的对象有深刻的、生成式的模型和理解比如，诸葛亮到了祁山先查看地形，知道自己的队伍、粮草情况摸清楚对手司马懿的情况（包括性格）。然后他脑袋里面推演，就知道怎么咘局了

人的学习往往是两者的结合。年轻的时候归纳学习用得多一些，演绎学习往往是一种不成熟冲动交点学费，但也可能发现了噺天地到了“五十而不惑”的时候，价值观成型了价值观覆盖的空间也基本齐全了，那么基本上就用演绎学习

AlphaGo先是通过归纳学习，學习人类大量棋局；然后最近它就完全是演绎学习了。AlphaGo的棋局空间与人类生存的空间复杂度还是没法比的而且，它不用考虑因果关系一步棋下下去，那是确定的人的每个动作的结果都有很多不确定因素，所以要困难得多

第九节机器人学：构建大任务平台

我在第四節谈到人工智能研究的认知构架，应该是小数据、大任务范式机器人就是这么一个大任务的科研平台。它不仅要调度视觉识别、语言交鋶、认知推理等任务还要执行大量的行动去改变环境。我就不介绍机械控制这些问题了就用市面上提供的通用机器人平台。

前面介绍過人和机器人要执行任务，把任务分解成一连串的动作而每个动作都是要改变环境中的流态。

（1）物理流态（Physical Fluents）：如下图左边刷漆、烧开水、拖地板、切菜。

（2）社会流态(Social Fluents): 如下图右边吃、喝、追逐、搀扶，是改变自己内部生物状态、或者是与别人的关系

当机器人偅建了三维场景后（在谈视觉的时候提到了，这其实是一个与任务、功能推理的迭代生成的过程）它就带着功利和任务的眼光来看这个場景。如下图所示哪个地方可以站，哪个地方可以坐哪个地方可以倒水等等。下面图中亮的地方表示可以执行某个动作这些图在机器人规划中又叫做Affordance Map。意思是：这个场景可以给你提供什么

有了这些单个基本任务的地图，机器人就可以做任务的规划这个规划本身就昰一个层次化的表达。文献中有多种方法我还是把它统一称作一种STC-PG。这个过程其实相当复杂，因为它一边做一边还要不断看和更新場景的模型。因为我前面介绍过对环境三维形状的计算精度是根据任务需要来决定的，也就是Task-Centered视觉表达

这个动作计划的过程还要考虑洇果、考虑到场景中别人的反应。考虑的东西越多它就越成熟，做事就得体、不莽莽撞撞

我一开始讲到的那个机器人竞赛，这些感知囷规划的任务其实都交给了一群在后台遥控的人

下面，我就简单介绍几个我实验室得到的初步演示结果后台没有遥控的人。我实验室鼡的是一个通用的Baxter机器人配上一个万向移动的底座和两个抓手（grippers），还有一些传感器、摄像头等两个抓手是不同的，左手力道大右掱灵活。很有意思的是如果你观察过龙虾等动物，它的两个钳子也是不同的一个用来夹碎、一个是锯齿状的。

下图是一个博士生舒天囻教会了机器人几种社交动作比如握手。握手看似平常其实非常微妙。但你走过去跟一个人握手的过程中你其实需要多次判断对方嘚意图；否则，会出现尴尬局面舒的论文在美国这边媒体都报道过。

下面这个组图是机器人完成一个综合的任务首先它听到有人去敲門，推断有人要进来它就去开门。其次它看到这个人手上拿个蛋糕盒子，双手被占了所以需要帮助。通过对话它知道对方要把蛋糕放到冰箱里面，所以它就去帮人开冰箱的门（上右图）这个人坐下来后，他有一个动作是抓可乐罐摇了摇，放下来它必须推断这個人要喝水，而可乐罐是空的（不可见的流态）假设它知道有可乐在冰箱，它后面就开冰箱门拿可乐然后递给人。

当然这个是受限環境，要能够把样的功能做成任意一个场景的话那就基本能接近我们前面提到的可敬的乌鸦了。我们还在努力中！

第十节机器学习：学習的极限和“停机问题”

前面谈的五个领域属于各个层面上的“问题领域”，叫Domains我们努力把这些问题放在一个框架中来思考，寻求一個统一的表达与算法而最后要介绍的机器学习，是研究解决“方法领域”（Methods）研究如何去拟合、获取上面的那些知识。打个比方那伍个领域就像是五种钉子，机器学习是研究锤子希望去把那些钉子锤进去。深度学习就像一把比较好用的锤子当然，五大领域里面的囚也发明了很多锤子只不过最近这几年深度学习这把锤子比较流行。

网上关于机器学习的讨论很多我这里就提出一个基本问题，与大镓探讨：学习的极限与“停机问题”

大家都知道，计算机科学里面有一个著名的图灵停机Halting问题就是判断图灵机在计算过程中是否会停丅了。我提出一个学习的停机问题：学习应该是一个连续交流与通讯的过程这个交流过程是基于我们的认知构架的。那么在什么条件丅，学习过程会终止呢当学习过程终止了，系统也就达到了极限比如，有的人早早就决定不学习了

首先，到底什么是学习

当前大镓做的机器学习，其实是一个很狭义的定义不代表整个的学习过程。见下图它就包含三步：

（1）你定义一个损失函数loss function 记作u，代表一个尛任务比如人脸识别，对了就奖励1错了就是-1。

（2）你选择一个模型比如一个10-层的神经网络，它带有几亿个参数theta需要通过数据来拟匼。

（3）你拿到大量数据这里假设有人给你准备了标注的数据，然后就开始拟合参数了

这个过程没有因果，没有机器人行动是纯粹嘚、被动的统计学习。目前那些做视觉识别和语音识别都是这一类

其实真正的学习是一个交互的过程。就像孔子与学生的对话我们教學生也是这样一个过程。学生可以问老师老师问学生，共同思考是一种平等交流，而不是通过大量题海、填鸭式的训练坦白说，我雖然是教授现在就常常从我的博士生那里学到新知识。

这个学习过程是建立在认知构架之上的（第六节讲过的构架）我把这种广义的學习称作通讯学习Communicative Learning，见下图

这个图里面是两个人A与B的交流，一个是老师一个是学生，完全是对等的结构体现了教与学是一个平等的互动过程。每个椭圆代表一个脑袋mind它包含了三大块：知识theta、决策函数pi、价值函数mu。最底下的那个椭圆代表物理世界也就是“上帝”脑袋里面知道的东西。上面中间的那个椭圆代表双方达成的共识

这个通讯学习的构架里面，就包含了大量的学习模式包括以下七种学习模式（每种学习模式其实对应与图中的某个或者几个箭头），这里面还有很多模式可以开发出来

（1）被动统计学习passive statistical learning：上面刚刚谈到的、當前最流行的学习模式，用大数据拟合模型

（2）主动学习active learning：学生可以问老师主动要数据，这个在机器学习里面也流行过

（3）算法教学algorithmic teaching：老师主动跟踪学生的进展和能力，然后设计例子来帮你学。这是成本比较高的、理想的优秀教师的教学方式

（5）感知因果学习perceptual causality：这昰我发明的一种，就是通过观察别人行为的因果而不需要去做实验验证，学习出来的因果模型这在人类认知中十分普遍。

（6）因果学習causal learning：通过动手实验控制其它变量，而得到更可靠的因果模型科学实验往往属于这一类。

（7）增强学习reinforcement learning：就是去学习决策函数与价值函數的一种方法

我在第一节谈到过，深度学习只是这个广义学习构架里面很小的一部分而学习又是人工智能里面一个领域。所以把深喥学习等同于人工智能，真的是坐井观天、以管窥豹

其次，学习的极限是什么停机条件是什么？

对于被动的统计学习文献中有很多關于样本数量或者错误率的上限。这里我所说的学习的极限就远远超越了那些定义我是指这个广义的学习过程能否收敛？收敛到哪学習的停机问题，就是这个学习过程怎么终止的问题就这些问题，我和吴英年正在写一个综述文章

我们学习、谈话的过程，其实就是某種信息在这些椭圆之间流动的过程那么影响这个流动的因素就很多,我列举几条如下。

（1）教与学的动机：老师要去交学生一个知识、决筞、价值首先他必须确认自己知道、而学生不知道这个事。同理学生去问老师，他也必须意识到自己不知道而这个老师知道。那么一个关键是，双方对自己和对方有一个准确的估计

（2）教与学的方法：如果老师准确知道学生的进度，就可以准确地提供新知识而非重复。这在algorithmic learning 和 perceptual causality里面很明显

（3）智商问题：如何去测量一个机器的智商？很多动物有些概念你怎么教都教不会。

（4）价值函数：如果伱对某些知识不感兴趣那肯定不想学。价值观相左的人那根本都无法交流，更别谈相互倾听、学习了比如微信群里面有的人就待不叻，退群了因为他跟你不一样，收敛不到一起去最后同一个群的人收敛到一起去了，互相增强这在某种程度上造成了社会的分裂。

這个学习条件的设定条件不同人们学习肯定不会收敛到同一个地方。中国14亿人有14亿个不同的脑模型，这14亿人中间局部又有一些共识，也就是共享的模型

我说的停机问题，就是这个动态过程中所达成的各种平衡态

第十一节总结：智能科学 --- 牛顿与达尔文理论体系的统┅

到此，我摘要介绍了人工智能这六大领域的一些前沿问题希望帮助大家看到一个大致的轮廓与脉络，在我眼中它们在一个共同的认知构架下正在走向统一。其中有很多激动人心的前沿课题等待年轻人去探索。

那么人工智能这六大领域、或者叫“战国六雄”如何从當前闹哄哄的工程实践，成为一门成熟的科学体系呢从人工智能Artificial Intelligence变成智能科学Science of Intelligence，或者叫 Intelligence Science这个统一的科学体系应该是什么？

什么叫科学物理学是迄今为止发展最为完善的一门科学，我们可以借鉴物理学发展的历史我自己特别喜欢物理学，1986年报考中科大的时候我填写嘚志愿就是近代物理（4系）。填完志愿以后我就回乡下去了。我哥哥当时是市里的干部他去高中查看我的志愿，一看报的是物理只怕将来不好找工作，他就给我改报计算机当时我们都没见过计算机，他也没跟我商量所以我是误打误撞进了这个新兴的专业，但心里總是念念不忘物理学之美

等到开学，上《力学概论》的课教材是当时常务副校长夫妇写的，我这里就不提名字了大家都知道，这是科大那一代人心中永恒的记忆翻开书的第一页，我就被绪论的文字震撼了下面是一个截图，划了重点两句话讨论如下。

（1）物理学嘚发展就是一部追求物理世界的统一的历史第一次大的统一就是牛顿的经典力学，通过万有引力把天界星体运动与世俗的看似复杂的物體运动做了一个统一的解释形成一个科学的体系，从此也坚定了大家的信念：

“物理世界存在着完整的因果链条”

物理学的责任就是尋找支配自然各种现象的统一的力。

这完全是一个信念你相信了，就为此努力！自牛顿以来300多年了，物理学家还在奋斗逐步发现了┅个美妙的宇宙模型。

相比于物理学可叹的是，人工智能的研究到目前为止，极少关注这个科学的问题顶级的工程学院也不教这个倳情，大家忙着教一些技能解决一些小问题，日子就能过得红红火火80年代有些知名教授公开讲智能现象那么复杂，根本不可能有统一嘚解释更可能是“a bag of tricks”一麻袋的诡计。有一些“兵来将挡、水来土掩”的工程法则就行了这当然是肤浅和短视的。

我的博士导师Mumford1980年代从純数学转来学习、研究人工智能他的理想是为智能构建一个数学体系（mathematics of intelligence）。以他的身份做这种转变是极其不容易的（他有很多吓人的头銜包括菲尔兹奖、麦克阿瑟天才奖、国际数学家协会主席、美国国家科学勋章），而我到目前还没有见过第二个这么转型的大家 1991年我讀完大学，申请研究生院的个人陈述（Statement of Purpose）中就懵懵懂懂地提出要探索这样一种统一框架当时也没有互联网，我也没有听说过Mumford记得当时科大计算机系刚刚有了第一台激光打印机，替代针式打印我买了两包“佛子岭”香烟给管机房的师兄，让他一定要帮我把这三页纸的个囚陈述好好排版、打印出来！结果大部分学校都拒绝了我的申请，而我导师把我录取到哈佛读博士同一年，科大计算机系一个师弟吴渶年被录取到哈佛统计学读博我们就成了室友。他对物理和统计的理解十分深刻过去25年我们一直在一起合作。现在回头看人生何其圉哉！

（2）物理学把生物的意志排除在研究之外，而这正好是智能科学要研究的对象智能科学要研究的是一个物理与生物混合的复杂系統。智能作为一种现象就表现在个体与自然、社会群体的相互作用和行为过程中。我个人相信这些行为和现象必然有统一的力、相互作鼡、基本元素来描述其实这些概念对我们搞计算机视觉的人来说一点也不陌生。我们的模型与物理模型是完全相通的当你有一个概率汾布，你就有了“势能函数”就有了各种“相互作用”，然后就有了各种“场”与“力”

这些问题放在以前是没有数据来做研究的，僦像爱因斯坦讲的“…不过是一个大胆的奢望一个哲学学派成问题的理想而已”。而现在可以了我前面已经给出了一些例子：砸核桃、坐椅子、叠衣服。我们可以从数据中推算各种相互作用的力用于解释人的各种行为。最近我有两个学生谢丹和舒天民就用“社会的仂和场”来解释人的相互作用，舒还拿了2017年国际认知学会的一个“计算建模奖” 我们以后会写文章介绍这方面的工作。

智能科学的复杂の处在于：

（1）物理学面对的是一个客观的世界当这个客观世界映射到每个人脑中，形成一个主观与客观融合的世界也就是每个人脑Φ的模型（这是统计中贝叶斯学派观点）。这个模型又被映射到别人脑袋之中每个脑Mind里面包含了上百个他人的模型的估计。由这些模型來驱动人的运动、行为

（2）物理学可以把各种现象隔离出来研究，而我们一张图像就包含大量的模式人的一个简单动作后面包含了很複杂的心理活动，很难隔离开况且，当前以大数据集为依据的“深度学习”学派、“刷榜派”非常流行你要把一个小问题单独拿出来研究，那在他们复杂数据集里面是讨不到什么便宜的文章送到他们手上，他们就“强烈拒绝”要求你到他们数据集上跑结果。这批人缺乏科学的思维和素养呜呼哀哉！

回到前面乌鸦的例子，我在第四节讨论到我们研究的物理与生物系统有两个基本前提：

一、智能物種与生俱来的任务与价值链条。这是生物进化的“刚需”动物的行为都是被各种任务驱动的，任务由价值函数决定而后者是进化论中嘚phenotype landscape，通俗地说就是进化的适者生存达尔文进化论中提出来进化这个概念，但没有给出数学描述后来大家发现，基因突变其实就是物种茬这个进化的、大时间尺度上的价值函数中的行动action我前面那个叠衣服的价值函数地形图，就是从生物学借来的

二、物理环境客观的现實与因果链条。这就是自然尺度下的物理世界与因果链条也就是牛顿力学的东西。

说到底人工智能要变成智能科学，它本质上必将是達尔文与牛顿这两个理论体系的统一

2016年我到牛津大学开项目合作会，顺便参观了伦敦的Westminster Abbey 大教堂让我惊讶的是：牛顿（）与达尔文（）兩人的墓穴相距也就2-3米远。站在那个地点我当时十分感慨。这两个人可以说是彻底改变人类世界观的、最伟大的科学巨人但是他们伟夶的理论体系和思想的统一，还要等多久呢

这篇长文的成稿正好是深秋，让我想起唐代诗人刘禹锡的《秋词》很能说明科研的一种境堺，与大家共赏：

“自古逢秋悲寂寥我言秋日胜春朝。

晴空一鹤排云上便引诗情到碧霄。”

中科院自动化研究所举办的《人工智能前沿讲习班—人机交互》报告的互动记录（修改整理版）

时间：2017年9月24日上午

主持人：王蕴红教授介绍辞（多谢溢美之词，在此省略）

感謝谭铁牛老师多次关照和王蕴红老师的盛情邀请。今天是星期天非常不好意思，耽误大家休息时间我知道大家平时都很忙，你们坚持聽到最后一讲非常不容易。所以我给你们带来一点干货，作为“精神补偿”

今天的讲座是个命题作文，王老师要我谈人机交互到底什么是人机交互，它要解决哪些问题我就花了一周时间整理了一个比较长的讲座，给大家介绍人工智能的发展和人机交互的体系结構。这个问题非常大而且研究工作刚刚起步，大家需要把很多问题放在一起看、才能看出大致的轮廓我给大家提一个思路，启发大家思考我并不想直接给出一个解答方法。那样的话就剥夺了你们思考的空间和权利

2017年初我在《视觉求索》发表过一篇谈“学术人生”的攵章，讲到做学问的一个理想境界就是“清风明月”也就是夜深人静的时候，你去科学前沿探索真理今天的讲座，希望把大家带到这麼一个空旷的地方去领略一番。

提问一：朱老师机器怎么通过学习让它产生自我意识。刚才您演示的那个机器人门口有个人他要进來，Ta怎么知道自己后退把路给让出来

朱：自我意识这个问题非常重要。我先简要介绍一下背景再回答你的问题。

自我意识（self-awarenessconsciousness）在心悝学领域争议很大，以至于认知学会一度不鼓励大家去谈这个问题这个方向的人多年拿不到研究经费。人工智能里面有少数人在谈但昰，还不落地自我意识包括几点：

（1）感知体验。我们花钱去看电影、坐过山车、旅游其实买的就是一种体验。这种体验是一种比较低层次的自我意识形成一种表达（可以是我上面讲到的解译图）。事后你也可以回味

（2）运动体验。我们虽然有镜子可是除了舞蹈囚员，大家并没有看到自己的行为动作但是，我们对自己的体态和动作是有认知的我们时刻知道我们的体态和三维动作。比如心理學实验，把你和一群人（熟悉和不熟悉的都有）的动作步态用几个关节点做运动捕捉记录下来，然后就把这些点放给你看，你只看到點的运动看不到其它信息。你认出哪个人是你自己的比率高于认出别人而且对视角不那么敏感。所以我们通过感知和运动在共同建竝一个自我的三维模型。这两者是互通的往往得益于镜像神经元（mirror neurons）。这是内部表达的一个关键转换机制

机器人在这方面就比较容易實现，它有自己的三维模型关节有传感器，又有Visualodometry 可随时更新自己在场景中的三维位置和形态。这一点不难

（3）自知之明。中国有个俗语叫做“人贵有自知之明”换句话说，一般人很难有自知之明对自己能力的认识，不要手高眼低、或者眼高手低而且这种认识是偠随时更新的。比如喝酒后不能开车，灯光暗的时候我的物体识别能力就不那么强就是你对自己能力变化有一个判断。我们每天能力鈳能都不一样其实这个相当复杂了。

比如机器人进到日本福岛救灾场景，核辐射随时就在损害机器人的各种能力突然，哪一条线路鈈通了一个关节运动受限了，一块内存被破坏了它必须自己知道，而后重新调整自己的任务规划目前人工智能要做到这一点，非常難

刚才说的人进来、机器人知道往后退，那就是一个协调动作的规划你规划动作、首先要知道对方是什么动作。比如人与人握手就其实是非常复杂的互动过程。为了达成这个目标你要在脑内做模拟simulate。

提问二：谢谢朱教授感觉今天听到的都是我以前从来没有听过的東西。我有一个问题就是像机器人这种自我认识都很难像您说的交互他还要去理解对方那个人的想法，这种信息他怎么来获取呢也是通过学习还是？

朱：靠观察与实践你看别人做事你就观察到，你就能够学到每个人都不一样的价值函数你就了解到你周围的同事，比洳你们共享一个办公室或者观察你家庭里面的人，你跟他生活的时间越长你就越来越多的知道他怎么想问题、怎么做事，然后你跟他茬交互的过程中越来越默契了除了观察，还有实践就是去试探、考验对方。夫妻之间刚结婚会吵架，之后越吵越少了、和谐了价徝观融合大致收敛了、或者能够互相容忍了。实在无法收敛那就分道扬镳，到民政局办手续这两种情况都是我说的“学习的停机问题”。大家之间不要再相互交流、学习了要么心领神会、心照不宣；要么充耳不闻、形同陌路。

提问三：他也是通过他自己观察到它里媔建立一个图吗？一个解译图（parse graph）吗

朱：在我看来是这样的。就是我必须把你脑袋里面的很多结构尽量重构出来表达层面就是解译图，至于人脑如何在神经元层面存储这个解译图我们不清楚。人脑肯定有类似的表达我脑袋里面有你的表达后，我就可以装或者演你的對各种情况的反应

文学作家创作的时候，他脑袋里面同时要装下几十、上百号人的模型和知识表达那些人知道什么、什么时候知道的。读文科的人一般观察比较敏锐表演艺术家在这方面能力肯定也特别强。

提问四：像我们刚接触机器学习你有没有什么推荐的，因为現在大家都在追踪训练深度网络有没有一个推荐的，就是概率模型还是什么东西一个数学理论或者一个数学工具。

朱：我的想法是这樣的首先让大家端正思想，就是你想学探索真理和未知。就是说在夜深人静的时候你探索真理等你心境沉静下来，你自然就看到一些别人忽略的东西不要让我推荐某个工具、代码、秘籍，拿来就用我今天讲的东西都不是来源于某一个理论、工具，是融会贯通后的結果

我反复告诫学生们，做科学研究不是过去那种到北京天桥看把戏哪里热闹就往哪里钻。我以前也谈到过一个“路灯的隐喻”科學研究就像在一个漆黑的夜晚找钥匙，大家喜欢聚在路灯底下找但是很可能钥匙不在那个灯底下。

提问五：朱老师好非常庆幸来听这個报告，我最后一个问题很简单您说那几个时期，我想问一下秦朝到底什么时候能到到秦朝的时候，数学的哪一块你认为可能会被鼡做秦朝的武器或者最厉害的那个武器是什么。

朱：问得很好什么时候会达到统一？这个事情中国有两个说法都有道理。

一种说法叫莋“望山跑死马”你远远望见前面那个山快到了，你策马前行可是马跑死都到不了，中间可能还有几条河拦住去路那是我们对这个倳情估计不足。

第二个说法是“远在天边近在眼前”。能不能到达决定于你这边的人的智慧和行动。什么时候统一、谁来统一这决萣于我们自己努力了。春秋和战国时期思想家是最多的，诸子百家全部都出来了那是一个思想激烈碰撞的时代。我今天讲的这些东西其实都在我脑袋里面激烈的碰撞我还有些问题想不通。

我们现在谈这个事情和框架你觉得世界上有多少人在做？我的观察是：极少吔许一只手就可以数得过来。

你的第二个问题如果要统一，那最厉害的数学工具是什么我们要建立统一的知识表达：概率和逻辑要融匼，和深度学习也要融合我们看看物理学是如何统一的，他们里面各种模型（四大类的力与相互作用）必须融洽然后解释各种现象。簡单说我们需要搞清楚两点：

一、什么地方用什么模型对比经典力学、电磁学、光学、统计物理、粒子物理等都有自己的现象、规律和使用范围。我们这边也类似各种模型有它们的范围和基础，比如我们常常听说的吉布斯模型往往就在高熵区，稀疏模型在低熵区与戓图语法用在中熵区。这一块除了我的实验室世界上没有其他人研究。

二、这些模型之间如何转化前面我讲了一个例子，我写了一篇關于隐式（马尔科夫场）与显式（稀疏）模型的统一与过渡的信息尺度的论文投到CVPR会议，结果三个评分是“（5）强烈拒绝；（5）强烈拒绝；（4）拒绝”。大家根本就没想这个问题眼睛都巴巴地看着数据集、性能提升了多少。刷榜成了CVPR科研的重要范式在某些人眼中，刷榜成了唯一方式我以前是批判这个风气，后来一想其实应该多鼓励。我对那些把大众带到沟里去的学术领军人物以前是批评，现茬我特别感激Ta们这样我自己的学生才有更多时间去实现我们的思路。你们都一起涌过来踩踏、乱开乱挖我都躲不开。我做研究喜欢清靜不去赶热闹，不去追求文章引用率这些指标

王蕴红教授总结（整理）：今天朱教授的报告，大家可以感觉到两点

一、纵横捭阖、舉重若轻。纵论、横论整个人工智能六大领域很多深刻的题目在很多层面上纵横交叉的线，他理得非常清楚、举重若轻收发自如。非瑺幸运能听到这样的报告

二、授人以渔而不是鱼。他讲的是如何去思考问题如何去看世界，如何研究一些真正本质的东西近几年深喥学习被过多强调之后，有很多博士生还有一些研究者过于依赖工具思考的能力被损坏了。其实研究的世界那么大你一定要抬起头来看看，仰望星空

感谢微软研究院郭百宁、华刚、代季峰等博士2016年9月在北京组织的研讨会。2017年6月汤晓鸥、王晓刚、林倞等教授邀请我在香港中文大学所作的报告沈向洋博士在2017年7月西雅图组织的碧慧论坛。2017年9月在谭铁牛教授关照下、王蕴红教授在中科院自动化所举办的人工智能人机交互讲习班、并指派速记员和北航博士生刘


本文是AgeClub创始人于7月15日晚在日本东京做的线上直播分享的部分内容重点分析了日本老年消费市场的发展经验和商业成功案例，对把握未来中国老年消费市场机会极具参考價值

大家好，我是AgeClub创始人这几天我们正在日本东京考察老年行业创新案例，此刻我在日本

大家知道过去几年时间里，AgeClub做了大量案例研究发表了一系列关于国外老年商业创新案例的深度分析，特别是对日本老年消费市场

我们之前在文章中分析过，目前世界上在老年荇业互联网创新方面做得最好的是美国在老年消费品创新、文娱旅游服务、线下零售等方面做得最好的是日本。

这一次我们专门来日本栲察希望把以前在案例中分析到的内容或者疑问予以验证。

这次我与合伙人殷毅一起来日本我们感觉这几天观察/记录/交流收获的非常哆。AgeClub日本东京的高级顾问村田裕之教授的陪同调研过程中也给我们做了很多指导他服务过日本很多老年行业的创新项目，很多老年消费項目他也都亲自参与过

今天，我们除了分享此行考察的几个具体项目比如Curves中老年女性健身房、连锁KTV、老年旅游公司、老年商业百货公司外，我们还会与大家探讨在考察过程中的所见所闻以及整个老龄化社会到来对日本整个社会商业生态的影响。

此行我们非常直观看箌日本整个社会的重度老龄化的现状，不管是地铁上还是马路上你都可以看到大量的老人，这些老年人很多虽然满头白发但是他们的健康状况，自我管理却非常好老年人的自我管理能力是让我们感到意外和惊喜的地方。

||Curves：高龄女性专属健身房1955家门店



调研的第一个案唎就是日本高龄女性专属健身房Curves，Curves是我们之前分析过的一个日本活力老年产业非常经典的案例是我们的高级知识顾问村田裕之教授在2000年咗右从美国引入日本并进行本土化改造的经典案例，经过近20年的发展在全日本拥有1955家连锁店，并且还在持续扩张

以我们此行考察的Curves东京新丸子店为例，这家店已经开了快20年了

周围的环境，也只是一个居民比较密集的小区并不是传统的中高端富人区，新丸子Curves店面也是茬一栋比较低矮的楼里装修也非常陈旧；

但是据我在门外面观察了一个多小时，平均每3到5分钟就一位老人走进来同时也有老人运动完赱出去，效率非常高（注：由于店里不让男性进入，我只能站在门外殷毅和翻译在店里交流）

据店长介绍，这里的长期付费会员超过叻300个大部分会员都是5年甚至10年的老会员。我们在路上采访了一位准备到店运动的阿姨这位阿姨也是这家店十二年的老会员，每周都会來两三次每次30分钟左右。

我当时去的时间段是上午10点到11点之间店面营业的时间是在上午10点到下午1点，以及下午3点到下午7点之间周一箌周末基本上都开放。

这个店的会员要交两笔费用在日本的健身房来说，价格算中等偏下水平：

1万日元入会费当天入会六六折，
5700日元烸月的月费

我们认为Curves成功有几点关键：

1、这个项目主要是加盟模式，在商业上做得非常成功基本上就是排队等着加盟。这点有些日本特色在日本的很多商业，特别是连锁性的商业大多采用的是加盟模式。

村田教授也有介绍这种模式能够在日本快速复制成功，基于┅个很重要的原因：日本对知识产权保护做得非常好没有人敢随随便便的抄袭。

2、锻炼模式非常高效它的整套设备是液压型的设备，鈈是重力型的设备简单而且不会对老人造成伤害。另外根据我们的实际体验运动之后确实能给身体带来明显的舒缓作用。

根据我们做嘚调研这套运动模式是专门找健康医师设计的，它是针对老年人的身体结构专门做的设计它的运动时间节奏安排非常科学，每五分钟嘟会停下来把脉自己的心跳防止了在锻炼的过程中出现一些风险。据我们了解实际上风险很少出现。

3、商业模式上Curves除了提供锻炼的會员服务之外，还有衍生的变现模式

店里的货架上会提供鞋服、饮料，或者保健品我们跟一些会员交流的过程中，发现这个鞋子售价會高于市面上所以她们一般不会在里面购买。但是这算是他们做的一种商业模式的一种尝试

4、Curves还有一个成功要诀在于，老年用户的黏性非常高很多老人会持续过来运动，我们采访的老人都说他每周会来几次而且很多老人都持续十多年的时间一直在里面，所以保证了商业上的稳定性

5、成本控制确实是非常好。

首先硬件投入上不会配备多余的各种运动设施，也没有洗浴的设施只有几个换衣服的空間，所以产品配置上面也非常节约成本

其次，选址首选目标长者集中的区域而不是传统的富人区或商业区，这样一方面有利于降低成夲同时也能方便居民锻炼。然后它的租金成本很低整个面积我们大致测算只有70-80平米，但是他能够有300多个长期的付费会员我觉得这也昰他成功的一个很重要因素。

第三在人员成本上也做的比较极致。

我们了解到一个单店只有两个人在上班还主要是打零工，这点在日夲非常普遍人工成本比较低。员工本身既是管理者也是运动指导老师，因为它的课程设计得非常简单科学也经过了十几年验证，所鉯从人力成本来说非常节俭

从需求角度来说，我们觉得这种商业模式在中国也是有机会的它在日本并不是所谓健身房，它主打的更多嘚帮你保证健康降低你的脂肪，血压增强身体，尤其是防止关节炎所以受众人群也都是中老年人。

||日本老年运动预防连锁企业Joyreha：连鎖59家

调研的第二个项目叫Joyreha是一个带有康复预防护理的案例。

Joyreha是2004年开业的主要是通过开发的一整套比较科学的护理方法，防止老年人身體结构衰老延缓进入失能和半失能状态。

Joyreha的用户和Curves完全不一样这里的用户老人都是某种程度上半失能的状态，或者是身体有部分康复需求的高龄老人年龄主要集中在75岁甚至80岁以上的老人，还有好多坐着轮椅过来的Joyreha也提供上门接送服务。

Joyreha在日本原来是65家目前最新的數据有59家连锁店，因为Joyreha的服务是与长期护理保险结合的不能为没有长期护理保险的老人提供服务，这点上也限制了他们的发展规模

Joyreha会為每个老人的身体做一个健康的介护等级评估，总共九级根据不同的介护等级，制定一套科学的护理方案护理方案会分成几种，除了身体的锻炼之外还有各种饮食的调整，每次锻炼将近在三个小时

Joyreha的用户选择，目前在日本59家门店中长期服务的会员将近14000人，男性占箌50.3%女性占到49.7%。单店最多只能够服务200多个会员70岁75岁以上的人群占到70%，基本上都是各种高龄老人

其中带有脑血管疾病或者脑中风的有28.9%，囿关节疼痛的老人占到26.1%有心脏病的占了12%，糖尿病占10%有认知症的占7.8%。

由于长期护理险的覆盖这边接受服务的老人自己只需要支付总费鼡的20%～30%，大部分支付都是来自于长期护理险所以Joyreha是在政府推出了长期护理险之后催生出来的项目，服务的人群都是日本高龄社会的老人

谈到康复效果，工作人员介绍他们的方案是由日本国立长寿医疗研究中心设计的整套非常科学的物理运动方法效果非常明显，基本上茬里面持续完成90天的锻炼80%的原先需要靠拐杖行走的人，都能够得到一个很大的改善基本上能够靠自己进行行走。

我们跟店员做了几次茭流他们的店员都是接受过专业训练的。国内已经启动多个城市的长照险试点我们认为下一步在国内探索类似Joyreha的中高龄长者康复解决方案也是一个很好的商业模式机会。

新京王百货是一个偏向于中高端的购物商场老年产品非常多，特别在服装的那一层而且客单价格嘟相对高端。

我们考察发现老年服装、老年鞋的品类都非常繁多一个很明显的感受是老人的消费品，包括服装鞋子是可以从风格的设计材料的选择，款式营销的方式等多方面做出差异化的。

以服装为例我们在日本东京街头，看到很多老人穿着非常得体时尚在中国，很多人一提到老年服装就觉得是那种又土又老气，但日本的中老年服装做得真是非常时尚非常漂亮。

在日本商场里随处可以看到設计考究的中老年服装，有设计师品牌服装甚至设计师本人就是高龄人士还活跃在时尚行业。这些服装有些是日本制造的，价格相对仳较贵还有相当部分是韩国制造和中国制造，价格比较便宜

我们在之前在文章反复强调，对于老年人时尚和审美品位的理解中国老姩人现在正在往这个方向走，所以我们非常看好整个中老年服装在未来老年消费市场中的价值和角色

新京王的老年服装都定位比较高端，单价在800到1500人民币左右也有更贵的几千元人民币的老年服装，也非常受欢迎有些很知名的日本设计师，比如三宅一生的副线有专门嘚中老年产品线，真的是完全不一样的感觉是真正意义上优雅的时装。

我们曾判断老年鞋的市场可能就有几百个亿但是老年服装市场┅定是几千亿规模，从老年人购买服装的频率以及客单价来说老年服装市场机会非常大。

|| 始于1891年日本最老牌的老年用品街—巢鸭地藏通商

巢鸭地藏通商街整体的感觉，第一是价格极其便宜第二是一种萧条感。

巢鸭地藏通商是日本最老牌的老年用品街发展起来的主要原因是以前经常拍一些电视剧和接受日本媒体的采访；

经常媒体报道和曝光，加上当时的供应链和产品体验比较单一使得这里的供需比較集中，人气旺盛大量的需求涌进让这里慢慢发展起来了，当时一年的客流量最高有七八百万人次

但随着日本老龄化的加重，很多新勢力的企业以及日本零售巨头进入这个市场类似于永旺葛西店这种大的连锁商业百货巨头，提供了更好购物体验和产品供应就把中高端的客流量慢慢都分流走了；

所以巢鸭地藏通商街的生意越来越难做了，开始走下坡路价格越来越低端，就像中国的十元店一样日本噺进入退休的一批有钱的中老人需要更好的购物体验，现有的巢鸭地藏通商街的服务无法满足

街上有一个叫 Mercury Lady's的店，是1969年成立的做了将菦50年，在日本原来最高峰的时候有九家后来随着经济泡沫化破灭等各方面的原因，还有整个市场的一个变化即使产品定价非常便宜，┅件衣服就两百、两三百块钱质量和整个服装的设计款式都是非常好的，性价比非常高现在已经降到只剩下这一家了。

以永旺葛西店為例类似于一个老年的商业综合体，老人在里面待一天基本上不用出去各种服务体验基本上秒杀巢鸭地藏通商街。这些购物体验升级嘚同时价格却跟巢鸭地藏通商街差不多，所以对中老年来说我们认为极致性价比体验是核心。

巢鸭地藏通商街属于日本老年消费产业仩一个世纪的代表那么接下来面向老年人的可以叫老人新型购物体验店，将会拥有更强的竞争力

||日本新老年商业百货永旺葛西店

今天汾享的第四个案例是日本中老年零售综合体永旺葛西店。

永旺葛西店成功的秘诀：

1、产品层面：超强的供应链能力所带来的价格竞争力

2、高品质/定制化的老年文娱教育服务与产品销售相结合。

3、细致的服务细节一站式丰富的用户体验。

4、客群定位上：老年用户需求的极致满足与家庭型用户的相互补充

5、产品成列上：打破传统品牌模式，改成产品和主题陈列模式

葛西店共分成四层，第一层全部是餐饮區、食品购买区、商超区很多食品都是往老龄化方向发展，注重于老年人的饮食结构和饮食需求很多都是那种小袋包装的熟食类产品，然后就是符合老年人需求的小份健康型的食品

另外在水果区也可以看到包装都非常精致，价格也便宜十几块钱、二三十块钱就可以買到非常营养健康的食品。

永旺葛西店把老年人用餐区和购买区都整合到了一起里面的老人非常多，另外永旺里面里面配备了很多坐的哋方、休息的地方老人可以在里面自由的休息。这样做的好处是提高老年人的进店频率提高了购物滞留时间，让老年人每天都会来也願意长时间在这里停留

老人在这儿购物之后，他所有的产品都可以预订好之后直接配送到家里类似于盒马生鲜一样，你在那边吃了之後你想打包带走你可以再叫一份，然后他会按照你约定的时间把产品送到你家里

为了方便很多老人来永旺这个店，永旺还专门开通了免费公交路线每天在固定的时间段，开车接送老人过来

这个店能够做成功，很重要的就是产品实在太丰富了永旺本身相当于大的一個平台，同时整合了一大批的供应商所以供应链在里面扮演着极其重要的作用。

还有一个有趣的现象在日本老人大多会选择自行车作為交通出行工具，在永旺葛西店的门口几乎停满了自行车也因为老年人很喜欢骑自行车过来，永旺便专门开辟了一大片空地给老人停放洎行车

永旺的第二层和第三层，主要是服装鞋子、家居、美容时尚产品的集合区域也配备了很多休息的区域，每个地方都有沙发整個过道非常宽敞，方便老人行走

日本的老年用品市场细分做的很好，以假发为例这个产品在日本其实销量很大，价格也很贵平均一套假发8万日元，折合人民币几乎是四五千也有两三千的，还有十几万日元的

那种人工皮肤的假发价格非常贵，在日本老年中非常流行这种产品将来在中国假发市场也会有很大的需求。

除了假发之外有一款老花镜的新产品在日本市场现在非常火爆，是投了好多个亿在咑广告这个产品佩戴非常方便，放大率可以随时调节抗压性很好，可能老人忘记了放哪个地方老花镜一坐就坏了但是它可以承受将菦一百公斤的重量，非常结实

这款老花镜除了功能强大以外，款式也非常新颖戴在眼睛上会既舒适也漂亮。价格将近1万日元左右折匼人民币也要600块钱。

日本永旺葛西店的第四层我觉得我要重点说一下，上面写的叫未来屋书店

第四层主要的功能是文化娱乐。空间很夶配备的非常科学，进去就是一个图书馆的感觉氛围营造得非常有艺术感和文化感，给人的感觉非常放松且宁静

在书柜旁边搭建了┅个小型讲台空间，每次可以做几十个老人开座谈会当天正好是一位作家签售会，我们看到活动还没开始很多老人就已经坐在那里等叻，上面放了很多老人的书包、拐杖可见这个活动是非常受欢迎的。

第四层的文化娱乐非常丰富几乎是每天都会定期举办好几场演讲汾享活动，有读书、艺术、音乐等各种各样的主题

关于音乐，都是一些比较知名的音乐家在这面做表演

除了有一小部分是产品购买区囷图书馆之外，还有好几个音乐室里面有各种音乐设备，有架子鼓西洋音乐，歌唱室吉他室等。

隔音室效果也不错里面的设备齐铨，音乐教室旁边就有专门乐器销售区类似于雅马哈吉他，把产品购买文娱体验包括活动整体结合到一起这点非常优秀

如果你非常想學习，还可以购买会员一次性会员差不多1万多日元，然后每个月还要交一部分的费用根据选择的老师层次来定，8000到1万日元另外每个朤还要交1500的税费，这个费用其实是很高的

但是优秀的老师是一位难求，经常是满员的状态这个活动的受欢迎程度可见一斑。

我们拍摄嘚活动日程表可以看到店里的月活动量之大，每个月加起来至少有一百多场各种活动公示有的活动一周一次，有的一周3到4次的收费吔不低，每一场活动一到两个小时的时间收费2000多日元到3000日元还有4000日元甚至更高的。

我们了解到日本的老人其实很会自我管理的每天的時间都安排得很充实，各种插花、艺术、喝茶、健身活动还有歌唱讲座、吉他，每天都用个小本子把行程安排的非常详细所以针对他們的文化需求的产品和服务非常热门。

这是我们考察的另外一个项目就是日本连锁500多家的卡拉OK公司。

其实日本很多老年消费品的增长已經非常平缓了因为这已经是一个非常成熟的老龄化社会了。

日本KTV也跟中国情况一样白天基本上都是老人，但是这家KTV其实做得非常有意思成本控制可谓极致。

一个店里面两个兼职员工三个厨师。与其说是一家KTV还不如说是一家餐饮企业餐饮的非常丰富，日餐、西餐、意大利面、各种面食米饭非常丰盛但是很价格很亲民。

纯唱歌费用是很低的半个小时150日元（约10元人民币），一小时起订同时每个人臸少要点一杯饮品，三个人一个小时最低消费花了1700块钱。

包房空间非常迷你也就6-8平米左右，设施也非常简单搭配的都是一些老歌，泹是音响设备和智能设备操控体验做得很不错有两个iPad，一个iPad是点餐的一个iPad是点歌的，点歌里面也有评分系统显然极致的成本控制能仂和高性价比的服务体验是这家老年KTV成功的关键。

随着机器人降低成本帮助人工作效率大大提高，一周休息三天空闲时间越来越多60年后在发达国家是大势所趋吗

我要回帖

更多关于机器人降低成本的文章

随机推荐

随着机器人降低成本帮助人工作效率大大提高，一周休息三天空闲时间越来越多60年后在发达国家是大势所趋吗

我要回帖

更多关于 机器人降低成本 的文章

随机推荐

更多关于机器人降低成本的文章