跳转到页脚
雷竞技是骗人的 人工智能/机器学习 Enhanced POET:通过无限创造学习挑战及其解决方案的开放式强化学习

Enhanced POET:通过无限创造学习挑战及其解决方案的开放式强化学习

摘要

创建开放式算法,可以产生自己的永不停止的新颖和适当的具有挑战性的学习机会,可以帮助自动化和加速机器学习的进展。在这个方向上最近迈出的一步是配对开放式开路者(Paired开放式开路者,POET),这是一种生成并解决自己挑战的算法,并允许解决方案在挑战之间进行目标切换,以避免局部最优。然而,由于算法本身的限制和外部问题,包括有限的问题空间和缺乏通用的进度度量,原始的POET无法充分展示其创造性潜力。重要的是,这两个限制不仅对诗人造成了障碍,而且对一般的开放性的追求造成了障碍。在这里,我们介绍并实证验证了原始算法的两个新创新,以及两个外部创新,旨在帮助阐明其全部潜力。这四项改进一起实现了迄今为止最开放的算法演示。算法创新是(1)一种对新挑战有多大意义的领域通用度量,使系统能够无限地潜在地创建和解决有趣的挑战;(2)一种有效的启发式方法,用于确定代理何时应该从一个问题切换到另一个问题(帮助开放式搜索更好地扩展规模)。在算法本身之外,为了更明确地展示开放性,我们引入了(3)一种新颖、更灵活的方式来编码环境挑战,以及(4)一种衡量系统继续展现开放性创新程度的通用方法。Enhanced POET产生了一系列复杂的行为,解决了各种各样的环境挑战,其中很多无法通过其他方式解决。

作者

瑞旺,乔尔雷曼,Aditya拉瓦尔大声回答,佳乐智,Yulun李,杰夫Clune,肯尼斯·o·斯坦利

出版

第37届机器学习国际会议,2020年

论文全文

Enhanced POET:通过无限创造学习挑战及其解决方案的开放式强化学习

注释
上一篇文章 基于异质性因果学习的用户营销有效性优化
下一篇文章 用深度确定性动态梯度估计Q(s,s’)
瑞旺
王锐是优步人工智能的高级研究科学家。雷竞技是骗人的他热衷于提升机器学习和人工智能的水平,并将前沿技术与优步更广泛的业务和产品联系起来。他最近在优步的工作发表在机器学习和人工智能的领先国际会议(ICML, IJCAI, GECCO等),并在GECCO 2019年获得最佳论文奖,并被Science、Wired、VentureBeat、Quanta Magazine等科技媒体报道。
乔尔雷曼
Joel Lehman先前是哥本哈根IT大学的助理教授,并研究了神经网络,进化算法和强化学习。雷竞技是骗人的
Aditya拉瓦尔大声回答
Aditya Rawal是优步人工智雷竞技是骗人的能实验室的一名研究科学家。他的兴趣集中在两个研究领域——神经进化和深度学习。雷竞技是骗人的他认为,进化式搜索可以取代人类创造下一代深度网络的独创性。此前,Aditya在德克萨斯大学奥斯汀分校(University of Texas at Austin)获得计算机科学硕士/博士学位,导师是Risto Miikkulainen教授。在他的博士学位期间,他开发了神经进化算法来进化序列预测问题的循环架构,并构建了协作、竞争和通信的多智能体系统。
佳乐智
Jiale Zhi是Uber AI的高级软件工程师。他的兴趣领域是分布式计算,大数据,科学计算,进化计算和强化学习。他还对机器学习在传统软件工程中的实际应用感兴趣。他是Fiber项目的创建者,这是一个用于大规模并行计算应用程序的可伸缩的分布式框架。在优步人工智能之前,他是优步边缘团队的技术主管,负责管理优步的全球移动网络流量和路由。
Yulun李
玉伦李先生担任拥有优步艾的软件工程师。
杰夫Clune
Jeff Clune是Wyoming大学计算机科学中的前大Loy和伊甸园议员副教授,高级研究经理和Uber Ai Labs的高级研究经理,目前在Openai的研究团队领导者。雷竞技是骗人的杰夫通过深入学习和深度加固学习侧重于机器人和培训神经网络。他还利用演化的计算模型研雷竞技是骗人的究了进化生物学的开放性问题,包括研究模块化,等级和再生性的进化起源。在成为一名教授之前,他是康奈尔大学的研究科学家,在密歇根州立大学获得了计算机科学雷竞技是骗人的的博士学位,并在密歇根州立大学获得了哲学的哲学,并在密歇根大学获得了哲学的巴。有关Jeff的研究可以在JeffCl雷竞技是骗人的une.com找到更多关于Jeff的研究
肯尼斯·o·斯坦利
在加入优步AI实验室之前,Ken是佛罗里达州中部大学计算机科学副教授(他目前在休假)。他是NeuroVolution的领导者(将神经网络与进化技术相结合),在那里他帮助发明了突出的算法,如整洁,CPPN,超容易和新奇搜索。他的想法也通过最近的受欢迎的科学书达到了更广泛的受众,为什么无法计划伟大:目标的神话。