跳到页脚
雷竞技是骗人的 ES不仅仅是传统的有限差异近似器

ES不仅仅是传统的有限差异近似器

抽象的

基于简化自然演化策略的进化策略最近引起了注意力,因为它在挑战的深度加强学习域中表现出令人惊讶。它通过生成当前参数集的扰动,检查它们的性能并在更高奖励的聚合方向上移动来搜索神经网络参数。因为它类似于奖励梯度的传统有限差异近似,因此它可以自然地与一个混淆。然而,本ES优化了不同的梯度,而不是奖励:它针对整个人口的平均奖励优化,从而寻求对扰动具有鲁棒的参数。该差异可以在搜索空间的不同区域相对于梯度下降,并且还对具有不同性质的网络。这种独特的稳健性财产及其优化后果在几个领域中展示。它们包括人形机置,其中来自基于政策梯度的强化学习的网络比索取基于俄克斯的策略扰乱了对参数扰动的鲁棒。虽然这种稳健性和稳健性寻求的影响仍然开放进一步研究,但这项工作的主要贡献是突出这种差异及其潜在的重要性。

作者

乔尔雷曼周杰伦杰夫疝气Kenneth O. Stanley

会议

Gecco 2018.

全文

'es不仅仅是传统的有限差分近似器(PDF)

优步AI.

注释
上一篇文章 利用深度学习,自动识别北叶枯叶枯萎感染玉米植物
下一篇文章 可逆剩余网络:BackPropagation而不存储激活
乔尔雷曼
Joel Lehman先前是哥本哈根IT大学的助理教授,并研究了神经网络,进化算法和强化学习。雷竞技是骗人的
杰夫疝气
Jeff Clune是Wyoming大学计算机科学中的前大Loy和伊甸园议员副教授,高级研究经理和Uber Ai Labs的高级研究经理,目前在Openai的研究团队领导者。雷竞技是骗人的杰夫通过深入学习和深度加固学习侧重于机器人和培训神经网络。他还利用演化的计算模型研雷竞技是骗人的究了进化生物学的开放性问题,包括研究模块化,等级和再生性的进化起源。在成为一名教授之前,他是康奈尔大学的研究科学家,在密歇根州立大学获得了计算机科学雷竞技是骗人的的博士学位,并在密歇根州立大学获得了哲学的哲学,并在密歇根大学获得了哲学的巴。有关Jeff的研究可以在JeffCl雷竞技是骗人的une.com找到更多关于Jeff的研究
Kenneth O. Stanley
在加入优步AI实验室之前,Ken是佛罗里达州中部大学计算机科学副教授(他目前在休假)。他是NeuroVolution的领导者(将神经网络与进化技术相结合),在那里他帮助发明了突出的算法,如整洁,CPPN,超容易和新奇搜索。他的想法也通过最近的受欢迎的科学书达到了更广泛的受众,为什么无法计划伟大:目标的神话。