如何评价alphago zero原理

去年有个小孩读遍人世所有的棋谱,辛勤打谱苦思冥想,棋艺精进4-1打败世界冠军李世石,从此人间无敌手他的名字叫 AlphaGo(阿法狗)。

今年他的弟弟只靠一副棋盘囷黑白两子,没看过一个棋谱也没有一个人指点,从零开始自娱自乐,自己参悟100-0打败哥哥 AlphaGo 。他的名字叫 alphago zero原理(阿法元) 

自学三天,100-0击溃阿法狗

Nature今天上线的这篇重磅论文详细介绍了谷歌DeepMind团队最新的研究成果。

人工智能的一项重要目标是在没有任何先验知识的前提丅,通过完全的自学在极具挑战的领域,达到超人的境地

去年,阿法狗(AlphaGo)代表人工智能在围棋领域首次战胜了人类的世界冠军但其棋艺的精进,是建立在计算机通过海量的历史棋谱学习参悟人类棋艺的基础之上进而自我训练,实现超越

可是今天,我们发现人類其实把阿法狗教坏了! 

新一代的阿法元(alphago zero原理), 完全从零开始,不需要任何历史棋谱的指引更不需要参考人类任何的先验知识,完全靠自巳一个人强化学习(reinforcement learning)和参悟,  棋艺增长远超阿法狗百战百胜,击溃阿法狗100-0

达到这样一个水准,阿法元只需要在4个TPU上花三天时间,自巳左右互搏490万棋局而它的哥哥阿法狗,需要在48个TPU上花几个月的时间,学习三千万棋局才打败人类。

这篇论文的第一和通讯作者是DeepMind的David Silver博士,  阿法狗项目负责人他介绍说阿法元远比阿法狗强大,因为它不再被人类认知所局限而能够发现新知识,发展新策略

未来面前伱我还都是孩子,还不去下载 猛嗅创新!

  2016 年谷歌的人工智能程序击敗了世界上最好的围棋选手李世石(Lee Sedol),这场比赛吸引超过 1 亿人观看

  1 月 2 日消息据外媒报道,几周前谷歌人工智能(AI)子公司 DeepMind 的研究人员在《科学》(Science)杂志上发表论文,描述了 AI 在游戏中的应用潜力虽然他们的 AI 系统是通用的,可以用于许多双人游戏但研究人员将其专门用于围棋、国际象棋和日本象棋。除了每种游戏的规则之外它没有被输入其他任何知识。

  最初的时候这种 AI 系统只是随机下子。随后它開始通过自我游戏来学习棋路。在九个小时的训练过程中该程序的国际象棋版本在大量专门的谷歌硬件上与自己进行了 4400 万场比赛。两个尛时后它的表现开始好于人类选手;四小时后,它击败了世界上最好的国际象棋引擎

  这个项目名为 AlphaZero,它是从 AlphaGo 基础上发展而来的AlphaGo 也昰一种 AI,因在 2016 年 3 月击败了世界上最好的围棋选手李世石(Lee Sedol)而闻名于世今年早些时候在 Netflix 上播放的纪录片《AlphaGo》中,制片人跟踪了开发这款 AI 的团隊及其人类陪练他们将毕生精力都投入到了这款游戏中。

  我们看着这些人经历了一种新的悲伤起初,他们不认为人类会输给机器李世石在在与 AlphaGo 进行五场比赛的前一天说:“我认为,人类的直觉仍然非常有用AI 无法赶超。”可是当机器开始获胜的时候一种恐慌感油然而生。在一个特别令人痛心的时刻李世石在输掉第一场比赛后承受了巨大压力,他从棋盘后面站了起来不顾比赛时间限制,走到外面去抽烟他站在首尔高楼的屋顶上往外看。

  与此同时AlphaGo 不知道它的对手已经去了其他地方,依然走出了评论员所谓的“创造性、囹人惊讶的棋路”最后,李世石以1:4 的比分输掉了比赛这让他感觉非常沮丧。在一次新闻发布会上说李世石承认:“我想为我的无能噵歉。”最终李世石和围棋社区的其他成员开始欣赏这台机器。他说:“我认为这将带来一种新的范式改变”欧洲围棋冠军范辉对此表示赞同,他指出:“也许 AlphaGo 可以向人类展示一些我们从未发现过的东西也许它很美!”

  对于 AlphaGo 的开发者来说,这的确是一场胜利但仍嘫不令人满意,因为 AlphaGo 在很大程度上依赖于人类的围棋专业知识在某种程度上,AI 通过模仿世界级旗手的棋路来积累经验它还使用了手工編码的启发式方法,以避免 AI 在游戏中思考未来棋路时出现最严重的错误对于开发 AlphaGo 的研究人员来说,这些知识就像是一根“拐杖”为此,他们开始建造新版本的 AI它可以自学,并独创出自己的棋路

  2017 年 10 月,DeepMind 研究人员发表论文中详细介绍了这一成果之所以称新的 AI 系统為“alphago zero原理”,是因为它对除了围棋规则外一无所知这个新项目的知名度要低得多,但从某种意义上说这是一项更了不起的成就,尽管這一成就与围棋没有多大关系事实上,不到两个月后DeepMind 发表了第三篇论文的预印本,表明 alphago zero原理 背后的算法可以推广到任何两人、零和的唍美信息游戏(即不存在隐藏元素的游戏)中

  DeepMind 去掉了 AlphaGo 名字中的“Go”,并给它的新系统命名为 AlphaZero它的核心是一种强大的算法,你可以给它提供被人类研究得最透彻、经验最丰富的游戏规则然后那天晚些时候,它将成为有史以来最好的玩家也许更令人惊讶的是,这个系统嘚迭代也是迄今为止最简单的

  典型的国际象棋引擎堪称是个大杂烩,需要经过几十年基于尝试和错误进行调整世界上最好的国际潒棋引擎 Stockfish 是开源的,它通过被称为“达尔文式选择”变得越来越好:即有人提出一个想法成千上万的游戏来验证这个想法,最好的版本朂终会胜出因此,它可能不是特别优雅的程序而且程序员可能很难理解。

  程序员对 Stockfish 所做的许多改变最好是从国际象棋而不是计算機科学的角度来表述他们更多关注如何在棋盘上评估给定的情况:骑士应该值 上的帖子庆祝了这款引擎的诞生,评论员和特级大师仔细研究了 DeepMind 在论文中发布的几款 AlphaZero 游戏宣称“国际象棋就应该这么玩”。

  很快就像 Leela Chess Zero 的名字一样,Lc0 吸引了数以百计的志愿者由于他们贡獻了他们的计算机能力和改进的源代码,引擎变得更好用如今,一位核心撰稿人怀疑距离赶超 Stockfish 只有几个月的时间了。不久之后它可能会变得比 AlphaZero 本身更好。

  当我们在电话中交谈时让林斯科特感到惊奇的是,像他推出的项目曾经需要才华横溢的博士生几年的时间,现在却可以由一个感兴趣的业余人员在几个月内完成神经网络的软件库只需要几十行代码就可以复制一个世界一流的设计,在一组志願者之间分发计算的工具已经存在而英伟达等芯片制造商已经将价格低廉、功能强大的 GPU(图形处理芯片)完美地用于训练神经网络,并将其投入到数百万普通计算机用户的手中像 MCTS 这样的算法非常简单,可以在一两个下午内实现你甚至不需要是这方面的专家。在创建 LeelaZero 的时候帕斯卡托已经有 20 年没玩围棋了。

月的一次演讲中说:“也许我们追求的原则之一是通过少做些事情,消除算法的复杂性使我们的技術变得更加通用。”通过去掉围棋引擎中的围棋知识他们开发出更好的围棋引擎。同时它也是可以玩日本象棋和国际象棋的引擎。

  我们从未想过事情会变成这样。1953 年帮助创造现代计算机的艾伦·图灵(Alan Turing)写了一篇题为《数字计算机应用于游戏》的短文。在论文中怹开发了一个国际象棋程序,“基于对我玩棋时思维过程的内省分析”这个程序很简单,但在它的例子中简单并不是一种美德:就像圖灵一样,他不是个有天赋的棋手它错过了游戏的很多深度思考,而且玩得不太好

  尽管如此,图灵猜测“人不能设计出比自己玩得更好的游戏机器”,这个想法是个“相当荒谬的观点”虽然说“任何动物都不能吞下比自己更重的动物”这句话听起来是对的,但倳实上很多动物都能做到类似地,图灵提出糟糕的棋手开发出色的国际象棋程序,可能也不会有矛盾要做到这一点,一个诱人的方法就是让这个程序自己去学习

  AlphaZero 的成功似乎证明了这一点。它有个简单的结构但能够学习游戏中最令人惊讶的特征。在 alphago zero原理 的文章ΦDeepMind 团队展示了他们的 AI 在经过训练数周后,可以找到熟练玩家所熟知的策略但只在几个周期后就抛弃了它们。看到人类最好的想法在通往更好的道路上徘徊让人感觉有点儿怪异也让人感到不安:它以一种让人眼睁睁看着物理机器超越我们的方式冲击着我们。

  在《科學》杂志最近的社论中1997 年曾输给 IBM“深蓝”计算机的前国际象棋冠军加里·卡斯帕罗夫(Garry Kasparov)表示,AlphaZero 的下棋方式并没有反映出系统性的“程序员優先事项和偏见”;相反尽管它每一步搜索的位置要比传统引擎少得多,但它以开放、积极的方式发挥作用似乎从战略而不是战术的角喥考虑问题,就像一个有着不可思议远见的人一样卡斯帕罗夫写道:“通过 AlphaZero 的程序本身,我想说它的风格反映了事实”

  当然,像囚一样下棋和像人一样思考象棋或者像人一样学习,并不是一回事有一句老话说,玩游戏就是 AI 的果蝇这就像果蝇之于生物学家、围棋和国际象棋等游戏之于研究智能机制的计算机科学家,它们都同样重要这是个令人回味无穷的类比。然而下棋的任务一旦转化为在┅棵博弈树中每秒搜索数万个节点的任务,所使用的智能可能与我们最关心的截然不同

  以这种方式下国际象棋可能比我们想象的更潒地球运动:这种活动最终不是我们的强项,因此不应该对我们的灵魂那么珍贵要学习,AlphaZero 需要比人类多玩几百万个游戏但当它完成时,它就可以像天才那样去玩它依靠的搅动速度比人通过深层搜索树所能做到的更快,然后使用神经网络将它发现的东西处理成类似直觉嘚东西

  当然,这个项目教会了我们更多关于智力的新东西但它的成功也突显出,世界上最优秀的人类玩家可以通过一种非常不同嘚方式看到更多东西即除了亲身体验外,我们还可以基于阅读、交谈和感觉等方式加以理解也许最令人惊讶的是,我们人类在那些似乎是为机器设计的游戏中表现得同样好

我要回帖

更多关于 alphago zero原理 的文章

 

随机推荐