跳到页脚
雷竞技是骗人的 人工智能 /机器学习 深度神经进化:遗传算法是训练深度神经网络的竞争替代方案

深度神经进化:遗传算法是训练深度神经网络的竞争替代方案

抽象的

深人造神经网络(DNN)通常是通过基于梯度的学习算法(即反向传播)训练的。进化策略(ES)可以与基于反向推销的算法相抗衡,例如挑战深度强化学习(RL)问题等政策梯度。但是,可以将ES视为基于梯度的算法,因为它通过类似于梯度的有限差近似的操作执行随机梯度下降。这就提出了一个问题,即非基于毕业的进化算法是否可以在DNN量表上起作用。在这里,我们证明了它们可以:我们通过简单,无梯度,基于人群的遗传算法(GA)进化了DNN的权重,并且在包括Atari和类人动力学在内的Hard Deep RL问题上表现良好。Deep GA成功地以超过四百万个自由参数发展了网络,这是有史以来最大的神经网络,它通过传统的进化算法进化。这些结果(1)扩展了我们对气体可以运行的规模的感觉,(2)有趣地表明,在某些情况下,梯度之后的情况并不是优化性能的最佳选择,(3)立即使多种神经进化技术可用改善了性能。我们通过证明将DNN与新颖性搜索结合起来,鼓励对具有欺骗性或稀疏奖励功能的任务进行探索来证明后者,可以解决奖励最大化算法的高维问题(例如,\ dqn,A3C,ES和GA,以及GA) 失败。此外,深色GA比ES,A3C和DQN快(可以在一个台式机上训练Atari在约4小时内训练Atari,或者在720个内核上分布约1小时),并启用最高的固定时间,最高为10,000- 紧凑型编码技术。

作者

Felipe Petroski这样,,,,Vashisht Madhavan,Edoardo Conti,乔尔·雷曼(Joel Lehman),,,,肯尼思·斯坦利(Kenneth O. Stanley),,,,杰夫·克莱恩(Jeff Clune)

作坊

Deep RL @ Neurips 2018

完整的纸

“深度神经进化:遗传算法是训练深度神经网络的竞争替代方案”(PDF)

Uber AI

注释
上一篇文章 开放性:您从未听说过的最后一个大挑战
下一篇文章 表征视觉问题回答模型与世界的规模
Felipe Petroski这样
Felipe Petroski Sisy是一名研究科雷竞技是骗人的学家,专注于深度神经进化,增强学习和HPC。在加入Uber AI实验室之前,他从RIT获得了BS/MS,在那里他开发了用于图形应用程序和ICR的深度学习体系结构,以及使用FPGA的硬件加速。
Vashisht Madhavan
Vashisht(Vash)是加州大学伯克利分校的最新毕业生,在那里他获得了计算机科学的学士学位和MS,重点是计算机视觉和人工智能。在伯克利,他的工作着重于自动驾驶汽车的感知系统。他的兴趣在于计算机视觉,机器学习和增强学习的交集。
乔尔·雷曼(Joel Lehman)
乔尔·雷曼(Joel Lehman)曾是哥本哈根IT大学的助理教授,研究了神经网络,进化算法和增强学习。雷竞技是骗人的
肯尼思·斯坦利(Kenneth O. Stanley)
在全日制加入Uber AI实验室之前,Ken曾是中部佛罗里达大学计算机科学副教授(他目前正在休假)。他是神经进化的领导者(将神经网络与进化技术相结合),在那里他帮助发明了诸如整洁,CPPN,HyperNeat和新颖的搜索之类的突出算法。他的想法也通过最近的流行科学书《为什么不能计划伟大:目标神话》吸引了更广泛的观众。
杰夫·克莱恩(Jeff Clune)
杰夫·克莱恩(Jeff Clune)是怀俄明大学(University of Wyoming)计算机科学的前Loy和Edith Harris副教授,他是Uber AI Labs的高级研究经理和创始成员,目前是OpenAI的研究团队负责人。雷竞技是骗人的杰夫通过深度学习和深入的强化学习专注于机器人技术和培训神经网络。他还使用进化的计算模型研雷竞技是骗人的究了进化生物学的开放问题,包括研究模块化,层次结构和进化性的进化起源。在成为教授之前,他曾是康奈尔大学的研究科学家,获得了计算机科学博士学位和密歇根州雷竞技是骗人的立大学的哲学硕士学位,并获得了密歇根大学的哲学学士学位。有关Jeff研究的更多信息,请访问j雷竞技是骗人的effclune.com