通过寻求新奇的代理群体改进深度强化学习的进化策略探索|优步研究雷竞技是骗人的

改进进化策略的探索，通过寻求新奇的代理群体进行深度强化学习

Vashisht Madhavan，菲利普·彼得罗夫斯基·萨奇，乔尔·雷曼，肯尼思·o·斯坦利,杰夫Clune

二零一七年十二月一日

摘要

进化策略(ES)是一组黑盒优化算法，能够像q学习和策略梯度方法一样训练深度神经网络，解决深度强化学习(RL)问题，但速度更快(例如，小时vs天)，因为它们的并行性更好。然而，许多RL问题需要定向探索，因为它们的奖励函数是稀疏的或具有欺骗性的(即包含局部最优值)，并且不知道如何用ES鼓励这种探索。在这里，我们展示了通过探索代理群体促进小规模进化神经网络定向探索的算法，特别是新颖性搜索(NS)和质量多样性(QD)算法，可以与ES杂交，以提高其在稀疏或欺骗性深度RL任务上的性能，同时保持可伸缩性。我们的实验证实，由此产生的新算法NS-ES和一个我们称之为NSR-ES的QD版本，避免了ES遇到的局部最优，从而在从玩雅达利到模拟机器人学习绕过欺骗陷阱的任务中获得更高的性能。因此，本文介绍了一系列快速、可扩展的强化学习算法，这些算法能够进行定向探索。它还将这个新的探索算法家族添加到RL工具箱中，并提出了一种有趣的可能性，即具有多个同时探索路径的类似算法也可以与ES之外的现有RL算法很好地结合。