杰夫·克伦和肯尼斯·斯坦利是这项研究的共同资深作者我们的相关研究论文雷竞技是骗人的.
Aditya拉瓦尔大声回答
工程博客文章雷竞技到底好不好用
雷竞技是骗人的研究论文
超梯度下降的一阶预处理
t·莫斯科维茨r .王,j .局域网,美国卡普尔,t . Miconi,j . Yosinski,答:拉瓦尔大声回答
标准梯度下降方法容易受到一系列问题的影响,这些问题会阻碍训练,例如高相关性和参数空间中的不同缩放。这些困难可以通过二阶方法解决,即对梯度应用预处理矩阵以提高收敛性。不幸的是,这样的算法通常很难扩展到高维问题,部分原因是特定的预处理条件的计算,如逆Hessian或Fisher信息矩阵是非常昂贵的。我们介绍了一阶预处理(FOP),这是一种快速、可扩展的方法,它概括了以前关于超梯度下降的工作(Almeida等人,1998;Maclaurin等人,2015;Baydin等人,2017)学习一个只使用一阶信息的预处理矩阵。[…][PDF]
神经信息处理系统研讨会(NeurlPS), 2019
标准梯度下降方法容易受到一系列问题的影响,这些问题会阻碍训练,例如高相关性和参数空间中的不同缩放。这些困难可以通过二阶方法解决,即对梯度应用预处理矩阵以提高收敛性。不幸的是,这样的算法通常很难扩展到高维问题,部分原因是特定的预处理条件的计算,如逆Hessian或Fisher信息矩阵是非常昂贵的。我们介绍了一阶预处理(FOP),这是一种快速、可扩展的方法,它概括了以前关于超梯度下降的工作(Almeida等人,1998;Maclaurin等人,2015;Baydin等人,2017)学习一个只使用一阶信息的预处理矩阵。[…][PDF]
神经信息处理系统研讨会(NeurlPS), 2019
背丙胺:训练具有可微神经调节可塑性的自修正神经网络
t . Miconi,答:拉瓦尔大声回答,Clune j .,k·斯坦利
强化学习的一大挑战是智能探索,特别是当奖励稀少或具有欺骗性时。有两款雅达利游戏可以作为这种艰难探索领域的基准:《Montezuma’s Revenge》和《Pitfall》。在这两款游戏中,当前的RL算法表现很差,即使是那些具有内在动机的算法,这是提高硬探索领域性能的主要方法。为了解决这一不足,我们引入了一种名为Go-Explore的新算法。[…][PDF]
学习表征国际会议(ICLR), 2019年
强化学习的一大挑战是智能探索,特别是当奖励稀少或具有欺骗性时。有两款雅达利游戏可以作为这种艰难探索领域的基准:《Montezuma’s Revenge》和《Pitfall》。在这两款游戏中,当前的RL算法表现很差,即使是那些具有内在动机的算法,这是提高硬探索领域性能的主要方法。为了解决这一不足,我们引入了一种名为Go-Explore的新算法。[…][PDF]
学习表征国际会议(ICLR), 2019年







