肯尼斯·o·斯坦利和杰夫·克伦文章的第二作者。
在深度强化学习(RL)中,解决Atari游戏蒙特祖玛的复仇而且陷阱这是一个巨大的挑战。这些游戏代表了一类广泛的具有挑战性的现实问题,称为“难探索问题”,在这些问题中,智能体必须学习具有非常罕见或欺骗性反馈的复杂任务。
的最先进的算法在蒙特祖玛的复仇平均得到11,347分,最高得到17,500分,在10次尝试中有一次解决了第一关令人惊讶的是,尽管进行了大量的研究,但到目前为止还没有算法获得超过0的雷竞技是骗人的分数陷阱.
今天我们推出Go-Explore,一个新的算法家族能够成绩在200万以上蒙特祖玛的复仇平均得分超过40万!Go-Explore可靠地解决了整个游戏,这意味着所有三个独特的关卡,然后推广到几乎相同的后续关卡(它们只是在事件发生的时间和屏幕上的分数上有所不同)。我们甚至看到它达到了159级!
在陷阱, Go-Explore的平均分超过21000分,远远超过人类的平均表现,是所有学习算法中首次得分在零以上。为了做到这一点,它需要穿越40个房间,要求它在水面上摇摆绳索,跳过鳄鱼、活门和移动的桶,爬梯子,并避开其他危险。
总而言之,Go-Explore提高了技术水平蒙特祖玛的复仇而且陷阱分别高出两个数量级和21000点。它不使用人类演示,但也打败了最先进的蒙特祖玛复仇的模仿学习算法是以人类示范的形式给出解决方案。
Go-Explore可以从人类领域知识中受益(不需要人类解决整个任务来提供演示),上面的结果使用了它。领域知识是最小的,很容易从像素中获得,突出了Go-Explore利用最小的深刻能力先天的知识。然而,即使没有任何领域知识,Go-Explore的得分也超过了35000分蒙特祖玛的复仇这是目前技术水平的三倍多。
Go-Explore与其他深度RL算法截然不同。我们认为它可以在各种重要的、具有挑战性的问题上取得快速进展,尤其是机器人技术。因此,我们希望它能帮助优步和其他公司的团队越来越多地利用人工智能的好处。
更新:我们鼓励您阅读下面题为“关于随机性问题的更新”的新部分,以了解我们的结果如何与基准的其他变化相关。
更新2:我们现在已经发布了一个纸Go-Explore以及源代码.
探索的挑战
奖励不频繁的问题很难解决,因为随机行为不太可能产生奖励,因此不可能学习。蒙特祖玛的复仇就是这样一个“稀疏奖励问题”。更难的是回报具有欺骗性的这意味着,在短期内最大化奖励会让智能体在获得更高的整体分数方面做出错误的选择。陷阱以这种方式具有欺骗性,因为许多行为会导致小的负面奖励(比如击中敌人),所以大多数算法学会了根本不移动,因此永远不会学会收集难以获得的宝藏。许多具有挑战性的现实问题既稀疏又具有欺骗性。
普通的RL算法通常无法走出第一个房间蒙特祖玛的复仇(400分或以下)和0分或以下陷阱。为了解决这样的挑战,研究人员增加了探索奖励,通常被称为雷竞技是骗人的内在动机(IM)给代理,奖励他们达到新的状态(情况或位置)。尽管IM算法是专门为解决稀疏奖励问题而设计的,但它们仍然难以解决蒙特祖玛的复仇而且陷阱.的最好的很少解决第一级的蒙特祖玛的复仇并且在《陷阱》中完全失败,获得零分。
我们假设当前IM算法的一个主要弱点是超然在这种情况下,算法会忘记它们访问过的有希望的地区,这意味着它们不会再回到这些地区,看看它们是否会带来新的国家。例如,假设有一个代理在两个迷宫的入口之间。它可能会偶然开始探索西方迷宫,IM可能会驱使它学会穿越,比如说,50%的迷宫。因为目前的算法在随机(行动或参数)中散布,以尝试新的行为以找到明确或内在的奖励,偶然的情况下,代理可能在某个时候开始探索东方迷宫,在那里它也会遇到很多内在的奖励。在完全探索了东方迷宫之后,它没有显式的它在西方迷宫中放弃的有希望的探索前沿的记忆。它很可能没有隐式的记忆的这片边疆要么由于深入研究的问题灾难性的忘记在人工智能.更糟糕的是,通往西方迷宫边界的道路已经被探索过了因此,没有(或几乎没有)内在动力去重新发现它。因此,我们说算法有分离来自提供内在动机的前沿状态。因此,当靠近当前代理访问的区域已经被探索过时,探索可能会停滞。如果代理人返回先前发现的有前景的勘探区域,这个问题将得到解决。
去探索
Go-Explore将学习分为两个步骤:探索而且robustification.
阶段1:探索,直到解决。Go-Explore建立了一个存档有趣的不同游戏状态(我们称之为“细胞”)和通向它们的轨迹,如下所示:
重复,直到解决:
- 从存档中概率地选择一个单元格(可以选择有希望的单元格,例如更新的单元格)
- 去回到那个单元格
- 探索从该单元格开始(例如,随机进行n步)
- 对于所有访问过的单元格(包括新单元格),如果新的轨迹更好(例如得分更高),则将其替换为到达该单元格的轨迹
通过显式地在存档中存储各种踏脚石,Go-Explore可以记住并返回有希望的领域进行探索(与具有内在动机的训练策略不同)。此外,Go-Explore通过在探索细胞之前先回到细胞(更喜欢遥远的、难以到达的细胞),避免过度探索容易到达的状态(例如靠近起点),而是专注于扩展其知识领域。最后,由于Go-Explore尝试访问所有可到达的状态,它不太容易受到欺骗性奖励函数的影响。这些想法对于熟悉的人来说是可以识别的质量分集算法,下面我们将讨论Go-Explore如何代表一种新型的质量多样性算法。
阶段2:强健(如有必要)。如果找到的解决方案对噪声不健壮(就像我们的Atari轨迹一样),用模仿学习算法将它们强健成一个深度神经网络。
细胞表达
为了在像Atari这样的高维状态空间中易于处理,Go-Explore需要一个低维单元格表示来形成它的存档。因此,单元格表示应该合并足够相似而不值得单独研究的状态(并且不合并有意义的不同状态)。重要的是,我们展示了这一点创建这样的表示并不需要特定于游戏的领域知识.我们发现最简单的单元格表示方法非常有效:简单地减少当前游戏框架的采样。
回到细胞
返回到单元格(在探索之前)可以通过三种方式实现,具体取决于环境的限制。按效率排序:
- 在一个可重调环境,可以简单地将环境状态重置为单元格的状态
- 在一个确定的环境,我们可以把轨迹回放到细胞里
- 在一个随机环境,能培养一个人goal-conditioned政策[1,10从而学会可靠地返回一个细胞
虽然大多数有趣的问题都是随机的,但Go-Explore背后的一个关键见解是我们可以做到第一个解决问题,然后然后稍后处理使解决方案更健壮的问题(如果需要的话)。特别是,与通常认为决定论是生产健壮和高性能代理的绊脚石的观点相反,它可以通过利用这样一个事实成为盟友,即模拟器几乎都可以同时具有确定性和可重置性(通过保存和恢复模拟器状态),并且可以稍后变得随机以创建更健壮的策略(包括添加域随机化).这些观察结果与机器人任务尤其相关,在机器人任务中,训练通常在制定政策之前在模拟中完成转移回到现实世界.
Atari是可重置的,所以出于效率考虑,我们可以通过加载游戏状态返回之前访问过的单元格。在蒙特祖玛的复仇,这种优化使我们解决第一个关卡的速度比重玩轨迹快45倍。然而,Go-Explore工作并不需要这样的模拟器访问;它只是让它更快。
在这项工作中,代理返回到一个细胞后,它只是通过采取随机操作(重复前一个操作的概率很高)来进行探索。请注意,这样的探索不需要神经网络或其他控制器,并且后续实验中的所有探索都不使用神经网络或其他控制器(尽管神经网络用于鲁棒化)。这种完全随机的探索非常有效,突出了简单地回到有趣的细胞的惊人力量。
勘探阶段结果
使用下采样的图像单元格表示,打开蒙特祖玛的复仇Go-Explore平均达到37个房间,65%的时间解决了第1关(包含24个房间,并不是所有房间都需要访问)。以前的技术状况[3.平均探索了22个房间。
Robustification
我们当前版本的Go-Explore利用决定论来更快地找到解决方案(高性能轨迹)。这样的轨迹是脆弱的:它们甚至不会泛化到稍微不同的状态,包括那些由雅达利的经典方法所创造的状态,即在开始游戏之前强迫代理随机次数(最多30次)不做任何事情。
Go-Explore解决了这个脆性问题模仿学习,一种可以从演示中学习健壮的无模型策略的算法。这类算法通常使用人工演示[2,5,6,9],但是Go-Explore的第一阶段可以自动生成这样的演示(如果更多有用的话,还会生成许多演示)。
任何可靠的模仿学习算法都可以工作。对于这个最初的工作,我们选择了Salimans & Chen’s“落后”的算法因为它是开源的,并且在提供人类生成的演示时被证明可以解决蒙特祖玛的复仇。
我们发现仅仅从一次演示中学习是不可靠的。然而,由于Go-Explore可以生成大量的演示,我们修改了向后算法以同时从多个演示中学习(在本例中为4,在后面的领域知识实验中为10)。我们还在起始条件中添加了随机数的no-ops(什么都不做命令),以使策略对这种类型的随机性具有鲁棒性。
结果稳健的深度神经网络策略
所有从解决第1级的轨迹中产生健壮策略的尝试蒙特祖玛的复仇工作。平均得分为35,410分,是之前最高水平11,347分的3倍多,略高于人类专家的平均得分[534,900个!
添加领域知识
算法集成易于提供的领域知识的能力可能是一项重要的资产。Go-Explore提供了在单元格表示中利用领域知识的机会(尽管最终的神经网络仍然只从像素直接播放).我们特别测试了Go-Explore的领域知识版本蒙特祖玛的复仇,其中,单元格被定义为代理的x-y位置、当前房间、当前级别和当前持有的键数的唯一组合。我们编写了简单的代码直接从像素中提取这些信息。
有了这种改进的状态表示,Go-Explore的第一阶段发现了惊人的238个房间,平均解决了9个以上的关卡,与缩小的图像单元表示相比,模拟器步骤数减少了一半。
Robustified结果
用Go-Explore的领域知识版本对发现的轨迹进行鲁棒,产生了可靠地解决前3个层次的深度神经网络策略蒙特祖玛的复仇(并且对初始无操作的随机数具有鲁棒性)。因为在这款游戏中,超过3级的所有关卡几乎相同,Go-Explore已经解决了整个游戏!
事实上,平均来说,我们的智能体超越了他们最初的轨迹完成29个关卡并获得469,209分!这打破了蒙特祖玛复仇的传统RL算法和模仿学习算法的艺术状态,这些算法以人类演示的形式给出了解决方案。令人难以置信的是,Go-Explore的一些神经网络实现了得分超过200万,达到159级!为了充分了解这些代理能做什么,我们不得不增加OpenAI的Gym允许代理玩游戏的时间。Go-Explore的最高分数远远高于人类世界纪录在1,219,200人中,达到了“超人表现”的最严格定义。
的这次破纪录的完整视频就算加速4倍也要53分钟。代理并没有死亡,而是遇到了时间限制(已经大大增加了)。
陷阱
陷阱也需要大量的探索,比蒙特祖玛的复仇因为它的奖励是稀疏的(在255个房间中只有32个积极的奖励),许多行为会产生小的消极奖励,阻止RL算法探索环境。到目前为止,我们所知道的RL算法都没有在这个游戏中收集到哪怕是一个积极的奖励(没有人为演示)。
相比之下,Go-Explore拥有最少的领域知识(在屏幕上的位置和房间号,这两者都是我们从像素中获得的),能够访问所有255个房间,并在算法的探索阶段收集超过60,000个点。没有领域知识(即缩小的像素表示),Go-Explore发现了令人印象深刻的22个房间,但没有找到任何奖励。我们认为缩小的像素表示在《陷阱》中表现不佳,因为游戏包含许多具有相同像素表示的不同状态(游戏邦注:即游戏中不同位置的相同房间)。在没有领域知识的情况下区分这些状态,可能需要一种将以前的状态考虑在内的状态表示,或者我们计划研究的其他技术。
从探索阶段收集的轨迹中,我们能够可靠地强健收集超过21,000个点的轨迹,大大超过了目前的技术水平和人类的平均表现。较长的、得分较高的轨迹被证明难以强健,可能是因为视觉上难以区分的状态可能需要不同的行为。我们相信这个问题是可以通过进一步研究帮助代理消除这种歧义状态的技术来解决的。雷竞技是骗人的
一个强大的深度神经网络策略,在《陷阱》中创造了AI记录,得分超过21,000分(不包括开始时给出的2,000分)。
三个关键洞见
我们相信Go-Explore在困难的探索问题上表现得如此出色,是因为三个关键原则:
- 记住好的探索垫脚石(有趣的是,到目前为止访问了不同的州)
- 第一个返回对于一个国家来说,然后探索
- 首先解决一个问题,然后加强(如有必要)
这些原则在大多数RL算法中并不存在,但将它们编织进来会很有趣。如上所述,当代RL算法不做第1条。第2点很重要,因为当前的RL算法通过随机扰动当前策略的参数或操作进行探索,希望探索环境的新领域,当大多数变化打破或实质性地改变策略时,这是无效的,这样它就不能在进一步探索之前首先回到难以到达的状态。达到一种状态所需的动作序列越长、越复杂、越精确,这个问题就越严重。Go-Explore解决了这个问题,它首先返回一个状态,然后从那里开始探索。这样做可以进行深入的探索,从而找到问题的解决方案,然后将其增强以产生可靠的策略(原则3)。
保存和探索档案中的垫脚石的想法来自质量多样性(QD)算法族(如MAP-elites[4,8),与本地竞争的新奇搜索),而且Go-Explore是一种基于map - elite的增强型QD算法。然而,以前的QD算法专注于通过随机扰动当前的策略存档来探索行为空间(实际上是从策略空间而不是状态空间的踏脚石出发),而不是通过从之前的探索停止的状态空间中重新探索来明确地探索状态空间。实际上,Go-Explore提供了比其他QD方法更可控的状态空间探索,通过确保探索范围在每个新的探索轨迹离开前一个轨迹的端点时通过状态空间累积。
值得注意的是,当前版本的Go-Explore在探索过程中采取完全随机的行动(没有任何神经网络!),即使应用于非常简单的状态空间离散化,它也很有效。尽管如此令人惊讶地简单的探索,它的成功强烈地表明,从好的踏脚石上记忆和探索是有效探索的关键,即使是在其他简单的探索中,这样做也比当代深度RL方法更有助于寻找新的状态和表示这些状态。Go-Explore可以通过与有效的学习表示相结合,用更智能的探索策略取代当前的随机探索,从而变得更加强大。我们正在寻求这两种途径。
Go-Explore还展示了如何通过首先在确定性环境中执行探索,然后对相关解决方案进行鲁棒,来分别解决勘探和处理环境随机性问题。对确定性环境的依赖最初看起来可能是Go-Explore的一个缺点。然而,我们强调,确定性环境可用于许多流行的RL领域,包括视频游戏、机器人模拟器,甚至学习世界模型。一旦找到一个脆性解,或者特别是一组不同的脆性解,就可以在模拟中产生一个鲁棒解。如果最终目标是针对现实世界的策略(例如,在机器人技术中),则可以使用许多可用技术中的任何一种,将健壮的策略从模拟转移到现实世界[4,7,11].此外,我们计划证明,用一个从一开始就学会处理随机环境的目标条件策略来替代加载确定性状态是可能的。这样的算法仍将受益于Go-Explore的三个关键原则。
有些人可能会反对说,虽然这种方法已经在高维领域的Atari-from-pixels中工作,但它不能扩展到真正的高维领域,比如真实世界的模拟。我们相信这种方法可以在那里工作,但它必须将更智能的细胞表示与智能(而不是随机)探索结合起来,以表达有趣的不同状态(例如,学习的、压缩的世界表示)。有趣的是,人们做的合并越多(将更多的状态映射到同一个细胞),就越需要智能探索来达到这些性质不同的细胞。此外,从任何给定的细胞中学习智能地探索将允许有效地重用探索所需的技能(例如,行走)。
相关工作
Go-Explore让人想起了早期的作品勘探与开发分离.然而,去探索进一步将探索介绍分解为三个元素:积累垫脚石(有趣的是不同的状态),返回为了有前途的垫脚石,还有探索从他们身上寻找额外的垫脚石(即上述原则#1和#2)。Go-Explore通过为每个元素插入非常简单的算法而获得的令人印象深刻的结果显示了这种分解的价值。与所有当前RL算法的另一个不同之处在于,正如上面提到的与QD算法相比,Go-Explore并不试图通过扰动最近获得新状态的策略来获得新的或高性能的状态,而是首先返回到没有任何扰动的状态,然后从它开始探索。
Go-Explore首先找到一个解决方案,然后围绕它进行健壮化,这方面有先例引导式保单检索.然而,这种方法需要一个非欺骗性的、非稀疏的、可微的损失函数来找到解决方案,这意味着它不能直接应用于奖励是离散的、稀疏的和/或欺骗性的问题,就像Atari和许多现实世界的问题一样。此外,引导策略搜索需要有一个可微的世界模型或学习一组局部模型,这是可处理的,要求在训练期间可以观察到系统的完整状态。
结论
总的来说,Go-Explore是一个令人兴奋的新算法家族,用于解决硬探索强化学习问题,即那些具有稀疏和/或欺骗性奖励的问题。它开辟了大量新的研究方向,包括尝试不同的档案,不同的选择返回哪个细胞雷竞技是骗人的的方法,不同的细胞表示,不同的探索方法,以及不同的鲁棒化方法,如不同的模仿学习算法。我们也很高兴看到Go-Explore擅长哪些类型的领域,什么时候会失败。对我们来说,这是一个充满探索可能性的新游乐场,我们希望您能加入我们,一起探索这一领域。
为了让社区从Go-Explore中受益,并帮助研究它的潜力,源代码而且论文全文描述Go-Explore的工具。
作者注,2018年12月3日:关于随机性问题的更新
我们已经收到了许多关于我们博客文章的回复,我们非常感谢来自社区的反馈。雷竞技到底好不好用我们将在接下来的文章中尽可能多地讨论这些问题,但我们想更快地更新我们对一个关键问题的看法:随机性,包括所谓的“粘性行为”。
随机问题是一个有一定随机性的问题(例如,由于风)。我们希望机器人和软件能够处理随机问题域。然而,我们的工作提出了一个以前很少人(包括我们)深入考虑过的问题:我们是否只关心机器学习算法的最终产品(例如,产生的神经网络“策略”)处理随机性(即,是否只在测试环境中需要随机性),还是我们也应该关心需要学习算法来处理训练中的随机性?让我们依次来看看。
特性转化过程中测试
我们同意,智能体最终应该在随机的情况下运行,因此测试环境应该是随机的。至少从2015年开始,在雅达利基准中增加随机性的标准方法是强迫机器人随机次数不做任何事情(执行“无操作”动作),最多30次。我们遵循这个惯例。在2017年,有人提出了一个新的建议通过“粘性行动”增加更高水平的随机性,即每个行动都有可能被随机重复。在我们发表这篇博文之前,我们并没有意识到基准测试从传统形式的转变,但是我们同意这种基准测试的变体使得测试环境更加随机。雷竞技到底好不好用
让Go-Explore处理这种随机形式的自然方法是在我们的强化阶段添加粘性行动。实验正在进行中,我们将尽快报告结果。”然而,我们测试了我们当前的网络是否已经对棘手的行为具有健壮性,并发现它们产生的结果仍然远远高于目前的水平。当用粘性动作进行测试时,尽管还没有接受过处理粘性动作的训练,但经过有领域知识和没有领域知识训练的网络的平均得分分别为19,540分和72,543分蒙特祖玛的复仇, 4,655个陷阱(与领域知识),所有这些都超越了以前的艺术状态。如前所述,一旦我们有时间以正确的方式做事,我们预计这些分数会进一步提高。
特性转化过程中培训
这个问题很复杂。我们认为,在一些用例中,我们不应该在训练过程中要求随机性,而在另一些用例中,我们应该要求随机性。我们从前者开始。对于许多现实世界的问题,模拟器通常是可用的(例如,机器人模拟器,交通模拟器等),并且可以是确定的。在这类问题中,我们想要一个可靠的最终解决方案(例如,一个在自然灾害后可靠地找到幸存者的机器人),我们不应该关心我们是否通过初始确定性训练得到了这个解决方案。此外,由于当前的RL算法可能会采取不安全的操作,并且需要大量的经验来学习,我们预计在可预见的未来,RL的大多数应用都需要在模拟器中进行训练。Go-Explore表明,我们可以通过使模拟器具有确定性来解决以前无法解决的问题,包括那些在评估时是随机的问题。我们为什么不想这么做呢?
也就是说,我们承认有些情况下模拟器是不可用的,比如在现实世界中直接学习,在这种情况下,学习算法在训练过程中必须面对随机性。正如我们在最初的文章中所写的,我们相信Go-Explore可以通过在探索阶段训练目标条件策略来处理这种情况,这是我们目前正在测试的假设。
有了这个框架之后,我们就可以重新讨论我们解决的问题了蒙特祖玛的复仇并在这一基准上产生了最先进的结果。要做到这一点,我们必须问:这是哪种类型的问题蒙特祖玛的复仇意味着什么?第一种类型(我们所关心的是在测试时对随机性具有鲁棒性的解决方案)还是第二种类型(在训练时算法必须处理随机性的情况)?我们相信,在我们的工作之前,很少有人考虑过这个问题,Go-Explore在这个问题上引发了一场健康的辩论。我们的结论是,我们应该对每一种都有基准。一个版本的任务可能只在测试期间要求随机性,而另一个版本的任务可能在训练和测试期间都要求随机性。
Go-Explore确实为我们认为是经典版本的蒙特祖玛的复仇而且陷阱(仅在测试中需要随机性)。在这次更新中刚刚提到的新结果中,不管这种随机性是通过最初的无操作还是粘性操作来实现的。但我们还没有测试Go-Explore的随机训练要求版本蒙特祖玛的复仇,那里目前的技术水平属于随机网络蒸馏纸。
关于陷阱,阅读我们文章的人已经让我们知道了两个论文成绩在零分以上的陷阱.据我们所知,两者都有测验在纯粹的确定性版本的游戏中(在我们停止运行它之前,go - explore已经获得了超过6万分)。虽然这两篇论文都很有趣,但我们并没有改变之前算法得分不高于零的说法,因为我们确实相信经典基准测试需要通过无操作来实现测试时间随机性。
我们希望这能澄清我们在这个问题上的最新想法,并澄清关于最先进性能的声明。
作者注,2018年12月12日:关于粘性动作增强的更新
正如我们在之前的更新中所提到的,处理粘性操作的正确“Go-Explore”方式是在阶段2 (Robustification Phase)添加它们。我们的实验已经完成,虽然这些数字可以通过额外的训练提高一些,但我们认为它们值得以目前的形式分享。请注意,它们比Jeff Clune在NeurIPS Deep RL研讨会上受邀演讲中报道的要高,因为我们让运行时间更长。
Go-Explore生成的神经网络在鲁棒化后,然后以粘滞动作的形式进行随机测试蒙特祖玛的复仇有领域知识的平均得分为281,264分(达到18级),没有领域知识的平均得分为33,836分。在陷阱在美国,专业知识的平均分为20527分,满分为64616分。所有这些数字都大大超过了之前的技术水平(在训练期间不需要随机性,但只在测试期间,如我们之前更新的讨论)。有趣的是,最大值陷阱当鲁棒化一个得分仅为22505的轨迹时,得分为64,616。因此,它从演示技能中学习到,它用于推广到新情况,使其得分提高了三倍以上,揭示了Go-Explore方法的一个新的有趣好处,即在发现解决方案后添加健壮化阶段。
参考文献
[1] Andrychowicz M, Wolski F, Ray A, Schneider J, Fong R, Welinder P, McGrew B, Tobin J, Abbeel P, Zaremba W (2017)事后经验回放。神经信息处理系统的进展,第5048-5058页。2017.
[2] Aytar Y, Pfaff T, Budden D, Le Paine T, Wang Z, de Freitas N (2018)通过观看YouTube来玩艰难的探索游戏。arXiv预印本:1805.11592。
[3]布尔达Y,爱德华兹H,斯托基A,克里莫夫O (2018)随机网络蒸馏探索。arXiv预打印arXiv:1810.12894。
[4] Cully A, Clune J, Tarapore D, Mouret JB (2015)能像动物一样适应环境的机器人.大自然。521卷503-507页。
[5] Hester T, Vecerik M, Pietquin O, Lanctot M, Schaul T, Piot B, Horgan D等(2017)从演示中学习深度q。arXiv预印arXiv:1704.03732。
[6] Pohlen T, Piot B, Hester T, Azar MG, Horgan D, Budden D, Barth-Maron G等(2018)观察并进一步观察:在Atari上实现一致的性能。arXiv:1805.11593。
[7] Koos A, Mouret JB, Doncieux S (2013)可转移性方法:跨越进化机器人的现实差距。IEEE进化计算汇刊第17期,no。1: 122 - 145。
[8] Mouret JB, Clune J (2015)通过映射精英来照亮搜索空间。1504.04909 arXiv v1。
[9]萨尔曼斯·T,陈锐(2018)从一次演示中学习蒙特祖玛的复仇。OpenAI博雷竞技到底好不好用客。
[10]肖尔·T,霍根·D,格雷戈尔·K,西尔弗·D (2015)泛值函数逼近器。在国际机器学习会议,第1312-1320页。2015.
[11] Tobin J, Fong R, Ray A, Schneider J, Zaremba W, Abbeel P (2017)用于将深度神经网络从模拟转移到现实世界的域随机化。IEEE/RSJ智能机器人与系统国际会议(IROS),第23-30页。













