跳到页脚
作者 Adrien Ecoffet的帖子

Adrien Ecoffet.

Adrien Ecoffet.
1个雷竞技到底好不好用博客文章 2研雷竞技是骗人的究论文
Adrien Ecoffet是一个有优步雷竞技是骗人的AI实验室的研究科学家。

工程博客文章雷竞技到底好不好用

Montezuma的复仇通过Go-探索解决了一个新的硬探索问题算法(在陷阱上设置记录)

0.
Montezuma的复仇通过Go-探索解决了一个新的硬探索问题算法(在陷阱上设置记录)

Kenneth O. Stanley和Jeff Clune是共同高级作者。

在深增强学习(RL)中,解决Atari Games蒙特萨州的复仇陷阱一直是一个大挑战。这些游戏代表着广泛的挑战性,现实世界问题......

雷竞技是骗人的调查报告

具有深度确定性动态梯度的Q(S,S')

A. Edwards.,Himanshu Sahni,R. Liu.J. Hung.A. Jain.王王A. Ecoffet.T. Miconi.,c. isbell,J. Yosinski.
在本文中,我们引入了一种新颖的价值函数形式Q(S,S'),其表示从状态S转换到相邻状态S',然后此后的最佳地作用。为了获得最佳策略,我们开发了一个前向动态模型,该模型学会进行下一个最大化此值的下一个状态预测。[...][PDF]
国际机器学习会议(ICML.),2020年

探索:一种新的硬探索问题方法

A. Ecoffet.J. Huizationa.J. Lehman.K.斯坦利J. Clune.
强化学习的大挑战是聪明的探索,特别是当奖励稀疏或欺骗时。两个Atari游戏作为这种艰难探索域名的基准:蒙特州的复仇和陷阱。在两个游戏中,当前的RL算法表现不佳,即使是具有内在动机的那些,也是提高硬勘探结构域上性能的主导方法。[...][PDF]
2019年

流行文章