抽象的
深人造神经网络(DNN)通常是通过基于梯度的学习算法(即反向传播)训练的。进化策略(ES)可以与基于反向推销的算法相抗衡,例如挑战深度强化学习(RL)问题等政策梯度。但是,可以将ES视为基于梯度的算法,因为它通过类似于梯度的有限差近似的操作执行随机梯度下降。这就提出了一个问题,即非基于毕业的进化算法是否可以在DNN量表上起作用。在这里,我们证明了它们可以:我们通过简单,无梯度,基于人群的遗传算法(GA)进化了DNN的权重,并且在包括Atari和类人动力学在内的Hard Deep RL问题上表现良好。Deep GA成功地以超过四百万个自由参数发展了网络,这是有史以来最大的神经网络,它通过传统的进化算法进化。这些结果(1)扩展了我们对气体可以运行的规模的感觉,(2)有趣地表明,在某些情况下,梯度之后的情况并不是优化性能的最佳选择,(3)立即使多种神经进化技术可用改善了性能。我们通过证明将DNN与新颖性搜索结合起来,鼓励对具有欺骗性或稀疏奖励功能的任务进行探索来证明后者,可以解决奖励最大化算法的高维问题(例如,\ dqn,A3C,ES和GA,以及GA) 失败。此外,深色GA比ES,A3C和DQN快(可以在一个台式机上训练Atari在约4小时内训练Atari,或者在720个内核上分布约1小时),并启用最高的固定时间,最高为10,000- 紧凑型编码技术。
作者
Felipe Petroski这样,,,,Vashisht Madhavan,Edoardo Conti,乔尔·雷曼(Joel Lehman),,,,肯尼思·斯坦利(Kenneth O. Stanley),,,,杰夫·克莱恩(Jeff Clune)
作坊
Deep RL @ Neurips 2018
完整的纸
“深度神经进化:遗传算法是训练深度神经网络的竞争替代方案”(PDF)
Uber AI