杰夫·克伦和肯尼斯·斯坦利是这项研究的共同资深作者我们的相关研究论文雷竞技是骗人的.
Aditya拉瓦尔大声回答
工程博客文章雷竞技到底好不好用
雷竞技是骗人的研究论文
超梯度下降一阶预处理
t·莫斯科维茨r .王,j .局域网,美国卡普尔,t . Miconi,j . Yosinski,答:拉瓦尔大声回答
标准的梯度下降方法容易受到阻碍训练的一系列问题的影响,如高相关性和参数空间的不同缩放。这些困难可以通过二阶方法解决,即对梯度应用预条件矩阵来提高收敛性。不幸的是,这类算法通常难以扩展到高维问题,部分原因是计算特定的预处理条件,如反Hessian或Fisher信息矩阵是非常昂贵的。我们引入了一阶预处理(FOP),这是一种快速、可扩展的方法,它概括了以前在超梯度下降方面的工作(Almeida et al., 1998;Maclaurin等,2015;Baydin et al.,2017)学习只使用一阶信息的预处理矩阵。[…][PDF]
神经信息处理系统研讨会(NeurlPS), 2019
标准的梯度下降方法容易受到阻碍训练的一系列问题的影响,如高相关性和参数空间的不同缩放。这些困难可以通过二阶方法解决,即对梯度应用预条件矩阵来提高收敛性。不幸的是,这类算法通常难以扩展到高维问题,部分原因是计算特定的预处理条件,如反Hessian或Fisher信息矩阵是非常昂贵的。我们引入了一阶预处理(FOP),这是一种快速、可扩展的方法,它概括了以前在超梯度下降方面的工作(Almeida et al., 1998;Maclaurin等,2015;Baydin et al.,2017)学习只使用一阶信息的预处理矩阵。[…][PDF]
神经信息处理系统研讨会(NeurlPS), 2019
背丙胺:训练具有可微神经调节可塑性的自修正神经网络
t . Miconi,答:拉瓦尔大声回答,Clune j .,k·斯坦利
强化学习的一大挑战是智能探索,特别是当奖励稀少或具有欺骗性时。有两款雅达利游戏便是这类硬探索领域的基准:《Montezuma’s Revenge》和《Pitfall》。在这两款游戏中,当前的RL算法表现都很糟糕,即使是那些具有内在动机的算法,这是提高硬探索领域性能的主要方法。为了解决这一不足,我们引入了一种名为Go-Explore的新算法。[…][PDF]
学习表征国际会议(ICLR), 2019年
强化学习的一大挑战是智能探索,特别是当奖励稀少或具有欺骗性时。有两款雅达利游戏便是这类硬探索领域的基准:《Montezuma’s Revenge》和《Pitfall》。在这两款游戏中,当前的RL算法表现都很糟糕,即使是那些具有内在动机的算法,这是提高硬探索领域性能的主要方法。为了解决这一不足,我们引入了一种名为Go-Explore的新算法。[…][PDF]
学习表征国际会议(ICLR), 2019年








