跳到页脚
首页 雷竞技是骗人的 人工智能/机器学习 一个用于分析、可视化和比较深度强化学习代理的Atari模型动物园

一个用于分析、可视化和比较深度强化学习代理的Atari模型动物园

摘要

大量的人力和计算工作旨在改善深度强化学习算法在基准测试(如Atari learning Environment)上的表现。相对较少的精力集中在理解这些方法学习了什么,以及研究和比较不同的强化学习(RL)算法家族学习的表示。摩擦的来源包括繁重的计算需求,以及大规模运行Deep RL算法的一般后勤和架构复杂性。我们减少了这种摩擦,通过(1)大规模训练几个算法并发布训练过的模型,(2)与之前的Deep RL模型版本集成,以及(3)发布代码,使任何人都可以轻松地加载、可视化和分析这些模型。本文介绍了Atari Zoo框架,该框架以一种易于使用的格式包含在基准Atari游戏中训练的模型,以及实现通用分析模式的代码,并将这些模型连接到一个流行的神经网络可视化库。此外,为了展示这个数据集和软件包的潜力,我们展示了几种深度RL算法的性能和表示之间的初步定量和定性比较,突出了它们之间有趣的和以前未知的区别。

作者

菲利佩·彼得罗夫斯基Vashisht Madhavan罗赞刘瑞王,巴勃罗·塞缪尔·卡斯特罗,Yulun李路德维希·舒伯特,马克·贝勒马尔,杰夫Clune乔尔·雷曼

论文全文

“用于分析、可视化和比较深度强化学习代理的Atari模型动物园”(PDF)

超级人工智能

评论
前一篇文章 更快的神经网络直接从JPEG
下一篇文章 用于符号化建筑足迹提取的旋转矩形
菲利佩·彼得罗夫斯基
Felipe Petroski Such是一位专注于雷竞技是骗人的深度神经进化、强化学习和高性能计算的研究科学家。在加入Uber AI实验室之前,他获得了RIT的学士/硕士学位,在那里他开发了图形应用程序和ICR的深度学习架构,以及使用fpga的硬件加速。
Vashisht Madhavan
Vashisht (Vash)是加州大学伯克利分校的应届毕业生,在那里他获得了计算机科学的学士和硕士学位,专注于计算机视觉和人工智能。在伯克利,他的工作重点是自动驾驶汽车的感知系统。他的兴趣在于计算机视觉、机器学习和强化学习的交叉领域。
罗赞刘
Rosanne是一名高级研究科学家,也是雷竞技是骗人的Uber AI的创始成员。她在西北大学获得了计算机科学博士学位,在那里她使用神经网络来帮助发现新材料。她目前正在研究机器学习和神经网络的多个神秘领域。她试图在业余时间写作。
瑞王
王睿是Uber AI的高级研究科学家。雷竞技是骗人的他热衷于提升机器学习和人工智能的艺术水平,并将前沿进展与优步更广泛的业务和产品联系起来。他最近在Uber的工作发表在机器学习和AI领域的领先国际会议(ICML、IJCAI、GECCO等)上,获得了GECCO 2019年的最佳论文奖,并被Science、Wired、VentureBeat和Quanta Magazine等技术媒体报道。
Yulun李
Yulun Li之前是Uber AI的软件工程师。
杰夫Clune
Jeff Clune是怀俄明大学计算机科学的前Loy和Edith Harris副教授,Uber AI实验室的高级研究经理和创始成员,目前是OpenAI的研究团队负责人。雷竞技是骗人的Jeff专注于机器人和通过深度学习和深度强化学习训练神经网络。他还利用进化的计算模型研雷竞技是骗人的究了进化生物学中的开放问题,包括研究模块化、层次和可进化性的进化起源。在成为教授之前,他是康奈尔大学(Cornell University)的研究科学雷竞技是骗人的家,获得密歇根州立大学(Michigan State University)的计算机科学博士和哲学硕士学位,并获得密歇根大学(University of Michigan)的哲学学士学位。更多关于杰夫的研究可以在JeffCl雷竞技是骗人的une.com上找到
乔尔·雷曼
Joel Lehman曾是哥本哈根IT大学的助理教授,主要研究神经网络、进化算法和强化学习。雷竞技是骗人的