人工智能

创建一个雅达利游戏代理动物园来促进对深度强化学习的理解

通过

费利佩·彼得斯基

2019年1月9日

推特15

投票2

Reddit8

297股票

这项研究是雷竞技是骗人的在b谷歌Brain和OpenAI的合作者的宝贵帮助下进行的。

雅达利动物园里经过训练的特工。

最近人工智能领域一些最令人兴奋的进展来自深度强化学习(deep RL)领域，深度神经网络从奖励信号中学习执行复杂任务。强化学习的运作方式类似于你教狗表演新把戏的方式:提供奖励来加强改进的行为。

最近，深度强化学习代理在经典等基准测试中超过了人类的表现视频游戏(如雅达利2600游戏)，桌游去，以及现代电脑游戏队伍2。一种常见的设置(我们的工作目标)是让算法学习玩单个电子游戏，仅从原始像素中学习，并以游戏分数的增加为指导。

除了电子游戏，我们相信强化学习在现实世界中也有很大的应用潜力。这在优步(Uber)和谷歌(google)都是如此改进Uber Eats推荐功能或自动驾驶汽车的应用)，在商业和整个社会中也是如此。然而，目前有更多的研究集中在提高深度强化学习雷竞技是骗人的性能(例如，代理在游戏中获得多少分)理解深度强化学习训练的智能体(例如，智能体所训练的游戏中的微小变化是否会使其灾难性地困惑)。理解我们创造的代理可以帮助我们建立对它们的信心和信任，这是在将强化学习应用于敏感的现实环境之前所需要的。

这种洞察力激发了研究项目雷竞技是骗人的这里描述的是:使理解深度强化学习的研究更容易进行雷竞技是骗人的。特别地，我们创建了和开源训练有素的雅达利学习环境代理库以及理解和分析其行为的工具。

雅达利学习环境

在介绍雅达利动物园之前，让我们先快速潜入雅达利学习环境(ALE)，动物园使用它。ALE(由这是2013年JAIR的论文)允许研究人员训练雷竞技是骗人的强化学习代理在Atari 2600模拟器上玩游戏。为什么雅达利?雅达利2600是一款经典的游戏机，它的游戏自然提供了各种各样的学习挑战。有些游戏相对简单(如发出难闻的气味)，而另一些则需要平衡相互竞争的短期和长期利益(比如Seaquest在游戏中，你必须管理潜艇的氧气供应，同时射击鱼来收集积分)。还有一些游戏要求玩家在收集任何奖励前积极探索游戏世界的大片区域蒙特祖玛的复仇或陷阱)。


框架	观察	内存

图1:(左)雅达利模拟器在游戏中产生的实际210×160 RGB帧Seaquest。(中)深度神经网络策略消耗的灰度下采样84×84观测值，不仅包括游戏的当前状态，还包括最后三个时间步。(右)雅达利2600内存的1024位状态(横轴)显示了策略评估的2000个时间步长(纵轴)Seaquest。

在玩ALE游戏时，大多数深度强化学习神经网络所输入的并不是直接来自雅达利模拟器的210×160 RGB图像(图1;左)，但稍微预处理的灰度版本的四个最近的帧(图1;中心)。此外，ALE的一个有趣元素是，它还提供对Atari 2600 RAM状态的访问(图1;(右)，它仅由1024位组成，并设法紧凑而完整地代表游戏的完整状态。(我们稍后将使用这些信息来强调不同深度强化学习算法如何学习玩游戏之间的区别。)

如果您对ALE感兴趣，请查看这些教程。

减少理解深度强化学习研究中的摩擦雷竞技是骗人的

使比较深度强化学习算法产品变得复杂的一个主要摩擦是，从头开始训练深度强化学习代理通常需要大量的计算和昂贵的硬件，特别是在许多任务中。例如，在雅达利学习环境中有超过50款游戏。强化学习算法增加了计算需求随机这意味着要了解它们的平均表现如何，需要多次运行每个算法。

但是，如果每个研究人员或雷竞技是骗人的实验室都独立地进行所有这些多次运行，然后扔掉结果(这几乎总是发生)，那就是浪费，只有拥有必要资源的研究人员才能参与分析深度强化学习代理。没有必要一遍又一遍地重新训练所有这些相同的算法——这就是为什么托管大量保存的模型是有意义的。

摩擦的另一个来源是不容易收集代理不同的RL算法和分析他们在一个共同的框架。算法通常以不同的方式实现，以不同的方式存储，并且只有很少的模型易于在训练后加载以进行进一步分析。因此，除了原始性能之外，很少有研究比较来自不同算法的深度强化学习代理的任何指标，因为只有性能数据被普遍发布。但这是一个方便而非科学的问题——我们错过了算法之间有趣的相似和不同之处吗?

摩擦的最后一个来源是常用的分析工具(如t-SNE状态嵌入或activation-maximizing 可视化这有助于阐明单个神经元的作用)通常必须重复执行，这浪费了研究人员的时间。雷竞技是骗人的

虽然有一些最初的有前途的雷竞技是骗人的对于深度强化学习的理解，由于这些摩擦的总和，我们认为我们的进步比可能的要少得多。

雅达利动物园简介

为了让研究人员更容易进行这类科学研究，我们在雷竞技是骗人的ALE游戏中大规模运行了一些常见的深度强化学习算法，以创建并发布一系列预训练模型:雅达利模型动物园。“模型动物园”的概念在机器视觉领域更为熟悉常见的来下载权重用于流行的网络架构(如AlexNet或ResNet)在像ImageNet这样的大规模数据集上训练。

除了发布训练模型的原始数据外，我们还开源软件这样可以很容易地分析这些模型(并且可以顺利地与以前的深度强化学习模型版本)。该软件可以比较和可视化由不同深度强化学习算法产生的训练代理。为了展示这个动物园和软件的潜力，我们发布了一篇论文(在NeurIPS 2018深度强化学习研讨会)，其中包括一些有趣的初步发现，并暗示了动物园可以帮助解决的许多未探索的问题。

本文的其余部分将通过我们在使用库时发现的故事，重点介绍库的特性。

案例研究#1:自我检测神经元Seaquest,还有三种形象化的方法

之前有一个很多的令人兴奋的工作在理解和可视化图像分类模型。(有关易于理解的介绍，请参见这个视频描述了深度可视化工具箱，或任何有关的互动刊物distill.pub像这样一个)。这条研究路线的一个有趣发现是，当信息通过神经网络的更深层时，深度神经网络经常从原始像素雷竞技是骗人的中学习有意义的高级特征。例如，尽管从未被告知人脸是什么，图像分类网络通常具有选择性响应它们的神经元。

对于深度强化学习来说，一个有趣的问题是是否会出现类似的高级表示。例如，在游戏中是否存在只对重要代理做出反应的神经元?为了探索这个问题，我们在Atari Zoo软件中创建了一个工具来可视化信息是如何通过深度强化学习策略网络进行的深度可视化工具箱)。

希望是窥视一个有数百万参数的神经网络的黑匣子，并深入了解网络的行为以及它到底学到了什么。例如，在下面的视频中，它描述了一个由Ape-X算法玩Seaquest(全屏观看效果最好)，我们注意到第三层的一些神经元E网络似乎在追踪玩家控制的潜艇的位置:

可视化深度强化学习代理的神经网络Seaquest。

下面，我们放大第三层卷积中的所有神经元:

这里，我们进一步放大到单个子检测神经元:

为了更彻底地验证这一见解，我们转向Atari Zoo软件中的另一个工具，它可以自动识别游戏中的图像补丁最能刺激特定神经元。

图2:在Seaquest中，代理评估中的六个观察值最大程度地激活了子检测神经元。红框突出了负责最大程度刺激神经元的特定图像补丁。

结果表明，在实践中，这个神经元确实在跟踪潜艇的位置——实际上，神经网络学会了在这个游戏世界中识别自己的“虚拟身体”。

为了更进一步，我们使用了另一个工具，一个神经网络可解释性框架，叫做清醒。通常用于可视化机器视觉模型的信息性帖子distill.pub在Atari Zoo软件中，Lucid很容易使用。最基本的想法是创造幻觉,从头开始优化图像，以激发神经网络中的特定神经元。这些人工图像让我们了解到神经元的理想输入是什么——它会对什么做出最大的反应。

图3:(左)从头开始优化的图像，以最大限度地激活子检测神经元。结果是屏幕上的斑点让人想起玩家的潜艇。(右)将产生幻觉的图像反馈给神经网络——子检测神经元(箭头所示)的结果显示，整个特征图都高度激活。

在这种情况下，如上所示，幻觉图像证实了整个故事。有趣的是，如果单独来看，这些证据中的任何一条都是轶事。然而，通过多个独立的透镜进行研究，我们可以获得对特定神经网络特征的理解的信心。

案例研究2:不同的深度强化学习算法学习不同的游戏风格吗?(以三种探索问题的方式为特色)

到目前为止，比较深度强化学习算法最常见的方法是看它们的客观性能:平均而言，算法X是否倾向于产生比算法Y得分更高的解决方案?然而，这是一个有限的视角，因为当在现实世界中部署代理时，存在许多相关的问题，而不仅仅是得分:代理的策略是否非常脆弱(它至少可以处理情况的轻微变化)?它是否学会了对游戏世界的有意义的表达?它能达到我们的目的吗，还是它找到了一个漏洞在奖励函数中？它是冒险还是规避风险?好斗还是温顺?

作为这种精神的初步探索，我们研究了不同的算法是否倾向于有自己的解决方案风格的问题(例如，策略梯度方法是否像A2C学会用一种完全不同于进化算法的方式玩游戏OpenAI ES的) ?我们再次利用Atari Zoo软件中的各种工具，从不同角度探讨这个问题。

首先，我们可以检查神经网络的学习权值。虽然通常很难通过观察神经网络的权重来推断神经网络学到了什么，但直接连接到输入的第一层权重提供了一个例外。这样的第一层权重代表了什么输入最能激发这些神经元，这让我们知道它们关注的是哪种特征。例如，在ALE中，输入是图像，而第一层权重(卷积层的学习过滤器)在可视化时显示了网络所关注的低级图像特征。

图4:雅达利游戏中由不同深度强化学习算法训练的神经网络的第一层过滤器权重可视化*Seaquest*。每一行代表输入不同第一层神经元的过滤器的权重(从F1到F6)，每一列代表随着时间的推移游戏的帧——最左边的列是T-3帧，我们到达代表当前情况的帧(现在)作为最右边的列。

有趣的是，如图4所示，基于梯度的算法(A2C，Ape-X，彩虹,DQN)通常具有空间结构，有时类似于边缘检测器。此外，考虑到连接到较旧的帧时，权重的强度通常会显着衰减。换句话说，神经网络更关注现在)。然而，进化算法(遗传算法和ES)表现出较少的结构，并且没有明确表现出对当前框架的偏好。如下图所示，我们通过平均游戏和第一层神经元的权重来显示这一趋势:

这一结果表明，与基于梯度的方法相比，进化方法可能从根本上学习了不同种类的表示。然后，我们可以通过观察在特定ALE游戏中学习到的解决方案来实证地探索这一假设，这是由Atari Zoo软件实现的。在这里，我们创建了一个视频网格，同时可视化每个算法的几个解决方案，从而能够快速调查产生的行为。下面，我们将展示这款游戏的视频Seaquest：

视频网格，可以快速探索每种方法为特定游戏生成的各种解决方案。请注意similarly-generated视频突出了硬探索游戏的难度陷阱是深度强化学习算法(参见我们最近的博客文章雷竞技到底好不好用去探索)。

从上面的视频中可以清楚地看出，在这个博弈中，直接搜索策略(A2C, ES和GA)的算法都收敛到相同的局部最优(在这种情况下，到达海底并呆在那里直到氧气耗尽)。相比之下，非策略、基于值的算法(DQN、Rainbow和Ape-X)学习更复杂的策略。所以，在这篇文章的前面，我们发现进化算法可以学习不同类型的内部神经表示，这个例子来自Seaquest强调它们(ES和GA)可能仍然收敛到质量相似解决方案基于梯度的方法(A2C)。

我们也可以使用降维来从单个图像中获得学习策略的整体视图，而不是在许多视频中盯着看，如下面的图6所示。我们的想法是利用大众t-SNE算法将经过不同算法训练的代理所达到的RAM状态嵌入到一个单一的二维空间中。

图6:支持我们在上面的网格视频中看到的，我们注意到A2C和ES点主要覆盖了图的重叠区域，而Ape-X的紫色点则集中在状态空间的不同部分。

我们的纸深入研究其他工具和自动化这类问题的研究。例如，它包括一项训练视觉模型的研究，以区分哪种算法生成了特定的图像观察。经过训练的模型在测试集上的混乱程度(即，它犯了多少错误)突出了哪些算法最终访问了状态空间的相似部分。

总的来说，这个案例研究提供了进一步的例子，说明通过探索Atari Zoo可以发现的各种发现。

展望与结论

我们为介绍Atari Zoo而写的论文只触及了可以用它执行的各种分析的表面。我们相信深度强化学习代理可能有许多有趣的特性等待被发现，这个模型动物园可能会让我们更容易发现这些特性(就像视觉模型动物园帮助揭示了视觉的普遍性一样)敌对的和愚弄图像)。

我们希望在动物园中添加更多的深度强化学习算法(比如黑斑羚)，并欢迎社区贡献新的分析工具(如卓越的地图和改进的可视化技术)。未来的工作可以探索在动物园中添加循环网络，或者用内在动机和辅助目标训练网络，或者用新的强化学习方式训练网络去探索(看看这样的网络是否学习了或多或少丰富的内部表征)。同样有趣的是，将动物园扩展到更复杂的3D领域，比如VizDoom或DMLab。

虽然我们创建动物园的主要原因是鼓励对深度强化学习的研究，但训练好的模型也可能对迁移学习研究有用(例如，探索如何成功地雷竞技是骗人的利用一款游戏的训练来更快地学会玩另一款游戏)，模型生成的数据可用于探索学习或使用Atari游戏模型进行基于模型的强化学习(参见这些)雷竞技是骗人的论文，例如)。

总之，我们很高兴向深度强化学习社区介绍一个新的资源，并渴望看到动物园使社区能够追求的各种研究问题。雷竞技是骗人的我们希望你下载和探索我们的软件包，其中包括Jupyter笔记本，可帮助您快速入门(或查看Colab笔记本在这里)。此外，通过在线网络工具，你还可以浏览视频代理人代理和探索他们的神经激活。

致谢

我们感谢我们的合作者Pablo Samuel Castro (@pcastr)和b谷歌Brain的Marc Bellemare，以及OpenAI的Ludwig Schubert，感谢他们对这个项目的帮助。我们也感谢Uber的整个OpusStack团队提供的资源和技术支持。

推特15

投票2

Reddit8

297股票

创建一个雅达利游戏代理动物园来促进对深度强化学习的理解

雅达利学习环境

减少理解深度强化学习研究中的摩擦雷竞技是骗人的

雅达利动物园简介

案例研究#1:自我检测神经元Seaquest,还有三种形象化的方法

案例研究2:不同的深度强化学习算法学习不同的游戏风格吗?(以三种探索问题的方式为特色)

展望与结论

致谢

受欢迎的文章

来看看米开朗基罗:Uber的机器学习平台

介绍面向领域的微服务架构

Uber的大数据平台:100+ pb，延迟极短

为什么优步工程从Postgres切换到MySQL

H3: Uber的六边形分层空间索引

介绍Ludwig，一个无代码深度学习工具箱

Uber工程技术栈，第一部分:基础

介绍AresDB: Uber的gpu驱动的开源实时分析引擎

优步的预测:介绍

介绍Base Web，优步的新设计系统的网站建设…

ETA电话回家:优步如何设计一条高效路线

宣布Uber工程公司的开源网站

Mastermind:使用Uber工程实时打击欺诈