跳到页脚
雷竞技是骗人的 通过输出梯度进行深层和复发神经网络的安全突变

通过输出梯度进行深层和复发神经网络的安全突变

抽象的

尽管神经进化(不断发展的神经网络)在从增强学习到人造生活的各个领域都有成功的往绩记录,但它很少应用于大型的深神经网络。一个核心原因是,尽管随机突变通常在低维度上起作用,但数千或数百万重量的随机扰动可能会破坏现有功能,即使某些单独的体重变化是有益的,也没有提供学习信号。本文提出了一种解决方案,通过引入一个安全突变(SM)操作员的家族,该家族的目标是在突变操作员本身内找到一种不会太多改变网络行为的变化程度,但仍然可以促进探索。重要的是,这些SM操作员不需要与环境的任何其他互动。The most effective SM variant capitalizes on the intriguing opportunity to scale the degree of mutation of each individual weight according to the sensitivity of the network’s outputs to that weight, which requires computing the gradient of outputs with respect to the weights (instead of the gradient of error, as in conventional deep learning). This safe mutation through gradients (SM-G) operator dramatically increases the ability of a simple genetic algorithm-based neuroevolution method to find solutions in high-dimensional domains that require deep and/or recurrent neural networks (which tend to be particularly brittle to mutation), including domains that require processing raw pixels. By improving our ability to evolve deep neural networks, this new safer approach to mutation expands the scope of domains amenable to neuroevolution.

作者

乔尔·雷曼(Joel Lehman),,,,杰伊·陈,,,,杰夫·克莱恩(Jeff Clune),,,,肯尼思·斯坦利(Kenneth O. Stanley)

会议

GECCO 2018

完整的纸

“通过输出梯度进行深层和复发神经网络的安全突变”(PDF)

Uber AI

注释
上一篇文章 半监督的元学习少量分类
下一篇文章 关于OpenAI进化策略与随机梯度下降之间的关系
乔尔·雷曼(Joel Lehman)
乔尔·雷曼(Joel Lehman)曾是哥本哈根IT大学的助理教授,研究了神经网络,进化算法和增强学习。雷竞技是骗人的
杰夫·克莱恩(Jeff Clune)
杰夫·克莱恩(Jeff Clune)是怀俄明大学(University of Wyoming)计算机科学的前Loy和Edith Harris副教授,他是Uber AI Labs的高级研究经理和创始成员,目前是OpenAI的研究团队负责人。雷竞技是骗人的杰夫通过深度学习和深入的强化学习专注于机器人技术和培训神经网络。他还使用进化的计算模型研雷竞技是骗人的究了进化生物学的开放问题,包括研究模块化,层次结构和进化性的进化起源。在成为教授之前,他曾是康奈尔大学的研究科学家,获得了计算机科学博士学位和密歇根州雷竞技是骗人的立大学的哲学硕士学位,并获得了密歇根大学的哲学学士学位。有关Jeff研究的更多信息,请访问j雷竞技是骗人的effclune.com
肯尼思·斯坦利(Kenneth O. Stanley)
在全日制加入Uber AI实验室之前,Ken曾是中部佛罗里达大学计算机科学副教授(他目前正在休假)。他是神经进化的领导者(将神经网络与进化技术相结合),在那里他帮助发明了诸如整洁,CPPN,HyperNeat和新颖的搜索之类的突出算法。他的想法也通过最近的流行科学书《为什么不能计划伟大:目标神话》吸引了更广泛的观众。