跳到页脚
首页 雷竞技是骗人的 人工智能/机器学习 改进进化策略的探索,通过寻求新奇的代理群体进行深度强化学习

改进进化策略的探索,通过寻求新奇的代理群体进行深度强化学习

摘要

进化策略(ES)是一组黑盒优化算法,能够像q学习和策略梯度方法一样训练深度神经网络,解决深度强化学习(RL)问题,但速度更快(例如,小时vs天),因为它们的并行性更好。然而,许多RL问题需要定向探索,因为它们的奖励函数是稀疏的或具有欺骗性的(即包含局部最优值),并且不知道如何用ES鼓励这种探索。在这里,我们展示了通过探索代理群体促进小规模进化神经网络定向探索的算法,特别是新颖性搜索(NS)和质量多样性(QD)算法,可以与ES杂交,以提高其在稀疏或欺骗性深度RL任务上的性能,同时保持可伸缩性。我们的实验证实,由此产生的新算法NS-ES和一个我们称之为NSR-ES的QD版本,避免了ES遇到的局部最优,从而在从玩雅达利到模拟机器人学习绕过欺骗陷阱的任务中获得更高的性能。因此,本文介绍了一系列快速、可扩展的强化学习算法,这些算法能够进行定向探索。它还将这个新的探索算法家族添加到RL工具箱中,并提出了一种有趣的可能性,即具有多个同时探索路径的类似算法也可以与ES之外的现有RL算法很好地结合。

作者

Edoardo孔蒂,Vashisht Madhavan菲利普·彼得罗夫斯基·萨奇乔尔·雷曼肯尼思·o·斯坦利杰夫Clune

会议

守夜@神经ips 2017

论文全文

“通过寻求新奇的代理群体改进深度强化学习的进化策略探索”(PDF)

超级人工智能

评论
前一篇文章 OpenAI进化策略与随机梯度下降的关系
下一篇文章 零工经济中的性别收入差距:来自100多万名拼车司机的证据
Vashisht Madhavan
Vashisht (Vash)最近毕业于加州大学伯克利分校,在那里他获得了计算机科学的学士和硕士学位,专注于计算机视觉和人工智能。在伯克利,他的工作重点是自动驾驶汽车的感知系统。他的兴趣在于计算机视觉、机器学习和强化学习的交叉。
菲利普·彼得罗夫斯基·萨奇
Felipe Petroski Such是一名研究科雷竞技是骗人的学家,专注于深度神经进化、强化学习和高性能计算。在加入Uber AI实验室之前,他获得了RIT的学士/硕士学位,在那里他开发了用于图形应用程序和ICR的深度学习架构,以及使用fpga的硬件加速。
乔尔·雷曼
Joel Lehman之前是哥本哈根IT大学的助理教授,主要研究神经网络、进化算法和强化学习。雷竞技是骗人的
肯尼思·o·斯坦利
在加入Uber AI实验室全职工作之前,Ken是中佛罗里达大学的计算机科学副教授(他目前正在休假)。他是神经进化(将神经网络与进化技术相结合)的领导者,在那里他帮助发明了杰出的算法,如NEAT, CPPNs, HyperNEAT和新奇搜索。通过最近出版的科普书籍《为什么伟大无法计划:目标的神话》,他的思想也得到了更广泛的读者。
杰夫Clune
Jeff Clune是怀俄明大学前Loy和Edith Harris计算机科学副教授,Uber AI实验室的高级研究经理和创始成员,目前是OpenAI的研究团队负责人。雷竞技是骗人的Jeff专注于机器人和通过深度学习和深度强化学习训练神经网络。他还利用进化的计算模型研雷竞技是骗人的究了进化生物学中的开放问题,包括研究模块化、层次结构和可进化性的进化起源。在成为教授之前,他是康奈尔大学的研究科学家,获得密歇根州立大学的计算机科学博士学雷竞技是骗人的位和哲学硕士学位,并获得密歇根大学的哲学学士学位。更多关于杰夫的研究可以在JeffCl雷竞技是骗人的une.com上找到