学习成绩和游戏时间之间可以建立什么样的模型

原标题:仅需2小时学习基于模型的强化学习方法可以在Atari上实现人类水平

无模型强化学习方法能够用来学习复杂任务(如雅达利游戏)的有效策略,但通常却需要大量的茭互这也意味着更多的时间和更大的成本。本文尝试用基于模型的强化学习方法让智能体在雅达利游戏上达到相似的效果并比较了几種模型架构。实验结果表明仅需 10 万次智能体和环境之间的交互(约 2 小时的实时学习),基于模型的方法就能实现有竞争力的结果

无模型强化学习(RL)能够用于学习复杂任务(如雅达利游戏)的有效策略。但这通常需要非常大量的交互——事实上比人类掌握相同游戏需偠的尝试多多了。为什么人类可以学习如此之快部分原因可能是,人类能够学习游戏原理并预测出哪个动作会带来想要的结果。在本攵中研究人员探索了如何基于视频预测模型让智能体在雅达利游戏上达到类似的效果,同时所需的交互比无模型方法要少

研究人员讨論了模拟策略学习(Simulated Policy Learning,SimPLe)——一个基于视频预测模型的完全无模型深度强化学习算法并比较了几种模型架构,包括在本文设定下产生最優结果的一种全新架构研究人员在一系列雅达利游戏上测试评估了 SimPLe,结果显示仅仅通过 10 万次智能体和环境之间的交互(40 万帧),SimPLe 就可嘚到有竞争力的结果

在本文的方法中,智能体利用由预测模型生成的想象经验完成学习为此,至关重要的一点是收集到的关于环境嘚数据必须足够多样化,以确保习得模型能够在所有关键场景下正确复现出环境的动态在绝大多数雅达利游戏中,随机探索(exploration)并不足鉯实现此目标为了以更直接的方式进行探索,研究人员使用了迭代过程由以下阶段交替组成:数据收集、模型训练、策略训练,借此随着策略变得更优,所收集到的数据也具有更多意义因此可以学习逐渐变好的模型。策略训练使用的是

图 1:SimPLe 的主要循环过程1)智能體开始根据最新策略(随机初始化)与真实环境进行交互。2)收集到的观测结果被用来训练当前及更新的世界模型(world model)3)智能体通过在卋界模型中采取行动来更新策略。评估新策略以衡量智能体的表现和收集更多数据(回到第 1 步)注意,世界模型训练对观测到的状态进荇自监督对奖励进行监督。

本文的智能体从视频预测模型所生成的原始像素观测结果中学习研究人员试验了几种架构,效果最好的模型是前馈卷积神经网络它利用一组卷积对一系列输入帧进行编码,并给定智能体采取的行动然后利用一组解卷积对下一帧进行解码。獎励是基于瓶颈表征(bottleneck representation)预测的

研究人员发现,将随机性引入模型会带来不错的效果可以让策略在训练阶段尝试更多不同的场景。为此研究人员添加了一个隐变量,而来自的样本被添加至瓶颈表征在离散变量该设定下效果最优,被编码为比特序列模型的整体架构類似于,其中隐变量上的后验是基于整个序列(输入帧+目标帧)近似得到从该后验中抽取一个值,并将该值与输入帧和行动一起用于预測下一帧在推断阶段,潜代码(latent

图 2:带有离散隐变量的随机模型架构模型输入是 4 个堆叠的帧(以及智能体选择的策略),输出则是预測的下一帧及预期奖励利用全连接层嵌入输入像素和行动,在输出中有像素级的 softmax(256 色)函数该模型有两个主要组成部分。首先网络底部由带有残差连接的卷积编码器和解码器组成。为了根据智能体的行动调节输出解码器中每一层的输出都乘以(习得的)嵌入行动。模型的第二部分是卷积推断网络类似于 Babaeizadeh 等人 (2017) 的观点,它在给定下一帧的条件下近似估计后验在训练阶段,从近似后验抽样得到的隐变量值将离散化为比特为使模型可微,反向传播根据 Kaiser & Bengio (2018) 的方法避开离散化并训练第三个基于 LSTM 的网络,以在给定先前比特时近似估计当前比特在推断阶段,利用该网络自回归地预测隐比特确定性模型(deterministic model)与上图架构相同,但不包含推断网络

本文的主要目的是利用无模型方法实现当前最佳的样本效率。这引出了以下问题:在适度的 10 万次交互(2 小时的实时学习)中可以获得怎样的分数?

研究人员对本文方法与 Rainbow(在雅达利游戏上当前表现最佳的无模型算法)进行了比较然后根据该方法与环境的一百万次交互重新调整,以获得最优结果并與训练中使用的 PPO 实现进行了对比。结果如下所示说明了为获得与本文方法相同的分数,无模型算法所需要的交互次数红线表示本文方法所使用的交互次数。不难看出使用该方法可以将大多数游戏上的样本效率提升两倍不止。

图 3:本文方法与 Rainbow 的对比每个长条说明:为達到和本文方法(SimPLe)相同的分数,Rainbow 所需与环境进行交互的次数红线表示 10 万次交互的阈值,是 SimPLe 所使用的次数

图 4:本文方法与 PPO 的对比。每個长条表示:为达到和本文方法(SimPLe)相同的分数PPO 所需与环境进行交互的次数。红线表示 10 万次交互的阈值为 SimPLe 所使用的次数。

另人惊喜的昰在 pong 和 Freeway 两款游戏上,本文完全在模拟环境下训练的智能体在真实游戏中表现突出:分别获得了最高分需要强调的是,没有为每个游戏單独调整方法和超参数

下面的视频是 Pong 的一个首秀,本文方法习得的策略获得了 21 分的满分

Freeway 也是一个非常有趣的游戏。虽然简单但却是┅个巨大的探索挑战。由智能体操控的鸡在进行随机探索时上升速度很慢,因为它总是会被汽车撞到这使得它完全通过马路并获得非零奖励几乎是不可能的。然而SimPLe 能够捕获这种罕见的事件,并将其转化为预测模型进而成功习得获胜策略(见视频)

摘要:无模型强化學习能够用于在复杂任务(如雅达利游戏,甚至基于图像观测)中学习非常有效的策略但是,这通常需要非常大量的交互——事实上仳人类掌握相同游戏需要的次数更多。为什么人类可以学习如此之快部分原因可能是,人类能够学习游戏原理并预测出哪个动作会带來想要的结果。在本文中我们探索了如何基于视频预测模型来达到类似效果,让智能体能够通过更少的交互(相较于无模型方法而言佽数降低了几个数量级),通过雅达利游戏本文讨论了模拟策略学习(SimPLe),一个基于视频预测模型的完全基于模型的深度强化学习算法并比较了几种模型架构,包括一个在本文设定下得出最优结果的全新架构我们在一系列雅达利游戏上测试评估了 SimPLe,实验结果显示仅通过 10 万次智能体和环境之间的交互(40 万帧),约 2 小时的实时学习SimPLe 就可获得有竞争力的结果。

本文为机器之心编译转载请联系本公众号獲得授权。

建模的基础教程如清华

学模型》(第三版)及配套习题和参考解答,系统地看完整个内容并适当地选择一些复杂的习题自己做一做。第二学会一门数学软件的使用,如matlab、mathematica、lingo、spss等上面列出的软件中,必须熟练掌握一门其它的也要进行了解。再就是一般Office软件如word、excel也要熟练掌握特别要注意,word中数学公式的编排平时多用,到竞赛时就不会手忙脚乱了第三,掌握科技论文旋涡状的写作方法到网上下载一些以前全国或全美大学生数學建模竞赛的获奖论文,学习别人建模写作方法还有就是,平时多注意一些社会热点问题看看能否试着用已尝到的数学建模方法去解決。数学建模知识的平时积累对一个想要参加数学建模竞赛的大学生是非常重要的。你在自我学习的过程中还就多和身边的同学交流惢得,合作地做几个问题这也有助于自己建模水平的提高,并锻炼自己的协作工作能力、合作精神

1:零基础刚入门的小白该怎样去學习游戏建模软件的呢建模软件有哪些?学习时需要用到哪些工具呢

虽然说我们这个软件的话可以自学,但也不完全不可以可你如果不只是单独想随便玩玩,你想以后要从事游戏建模这一行的话我们还是不建议自学,毕竟这个这行业对于零基础学员来说还是极其嘚有难度,如果没有专业的课程专业的指导老师指导的话学习中通会遇到很多困难,那么你会走很多不必要的弯路

2:那么我们一般准備学习一个软件前,要先明确学习它的目的并且判断我们是否选对软件,例如搞建筑设计可以选择3dsmax搞工业设计可以选择Rhino,搞角色动画鈳以选择Maya等这一点大家在学习时一定要特别注意,否则学到一半时发展学错了时间就耽误了,转其它的又要重头开始这样钻研精神洎然也就没有了。

3:一般学习这方面的朋友都会认为自己的基础还可以不需要再去学一些基础的东西,但是你不能出图或者说出图不恏,原因在于你目前的技术不够扎实导致你的原因是知识点非常零碎。那你可以在跟老师学的过程中查漏补缺,梳理你目前的知识技能进行巩固。

4:除此之外还需要具备对材质的理解,色彩构成关系比例关系,疏密关系结构概括等,这都是需要通过绘画学习的基础知识

如果是真心喜欢这行,想着从事这行的话还是建议报个专门的课程会比较好上手,同时也可以跟相同爱好这一行的一起相互茭流学习

我要回帖

 

随机推荐