摘要
大量的人力和计算工作旨在改善深度强化学习算法在基准测试(如Atari learning Environment)上的表现。相对较少的精力集中在理解这些方法学习了什么,以及研究和比较不同的强化学习(RL)算法家族学习的表示。摩擦的来源包括繁重的计算需求,以及大规模运行Deep RL算法的一般后勤和架构复杂性。我们减少了这种摩擦,通过(1)大规模训练几个算法并发布训练过的模型,(2)与之前的Deep RL模型版本集成,以及(3)发布代码,使任何人都可以轻松地加载、可视化和分析这些模型。本文介绍了Atari Zoo框架,该框架以一种易于使用的格式包含在基准Atari游戏中训练的模型,以及实现通用分析模式的代码,并将这些模型连接到一个流行的神经网络可视化库。此外,为了展示这个数据集和软件包的潜力,我们展示了几种深度RL算法的性能和表示之间的初步定量和定性比较,突出了它们之间有趣的和以前未知的区别。
作者
菲利佩·彼得罗夫斯基,Vashisht Madhavan,罗赞刘,瑞王,巴勃罗·塞缪尔·卡斯特罗,Yulun李路德维希·舒伯特,马克·贝勒马尔,杰夫Clune,乔尔·雷曼
论文全文
“用于分析、可视化和比较深度强化学习代理的Atari模型动物园”(PDF)
超级人工智能
评论