抽象的
基于简化自然演化策略的进化策略最近引起了注意力,因为它在挑战的深度加强学习域中表现出令人惊讶。它通过生成当前参数集的扰动,检查它们的性能并在更高奖励的聚合方向上移动来搜索神经网络参数。因为它类似于奖励梯度的传统有限差异近似,因此它可以自然地与一个混淆。然而,本ES优化了不同的梯度,而不是奖励:它针对整个人口的平均奖励优化,从而寻求对扰动具有鲁棒的参数。该差异可以在搜索空间的不同区域相对于梯度下降,并且还对具有不同性质的网络。这种独特的稳健性财产及其优化后果在几个领域中展示。它们包括人形机置,其中来自基于政策梯度的强化学习的网络比索取基于俄克斯的策略扰乱了对参数扰动的鲁棒。虽然这种稳健性和稳健性寻求的影响仍然开放进一步研究,但这项工作的主要贡献是突出这种差异及其潜在的重要性。
作者
乔尔雷曼那周杰伦那杰夫疝气那Kenneth O. Stanley
会议
Gecco 2018.
全文
优步AI.
注释