分析、可视化和比较深度强化学习代理的Atari模型动物园|ti8 竞猜雷竞技app雷竞技到底好不好用

一个用于分析、可视化和比较深度强化学习代理的Atari模型动物园

菲利佩·彼得罗夫斯基，Vashisht Madhavan，罗赞刘，瑞王，Yulun李，杰夫Clune,乔尔·雷曼

2018年12月1日

摘要

大量的人力和计算工作旨在改善深度强化学习算法在基准测试(如Atari learning Environment)上的表现。相对较少的精力集中在理解这些方法学习了什么，以及研究和比较不同的强化学习(RL)算法家族学习的表示。摩擦的来源包括繁重的计算需求，以及大规模运行Deep RL算法的一般后勤和架构复杂性。我们减少了这种摩擦，通过(1)大规模训练几个算法并发布训练过的模型，(2)与之前的Deep RL模型版本集成，以及(3)发布代码，使任何人都可以轻松地加载、可视化和分析这些模型。本文介绍了Atari Zoo框架，该框架以一种易于使用的格式包含在基准Atari游戏中训练的模型，以及实现通用分析模式的代码，并将这些模型连接到一个流行的神经网络可视化库。此外，为了展示这个数据集和软件包的潜力，我们展示了几种深度RL算法的性能和表示之间的初步定量和定性比较，突出了它们之间有趣的和以前未知的区别。