杰夫·克伦和肯尼斯·o·斯坦利文章的第二作者。
我们感兴趣的开放性优步AI实验室,因为它提供了完全独立生成多样化且不断扩展的机器学习课程的潜力。拥有大量的数据通常会促进机器学习的成功,因此我们正在努力创建能够无限生成自己的训练数据的算法。
在机器学习的正常实践中,研究人员确定一个特定的问题(例如,像ImageNet这样的分类问题或像视雷竞技是骗人的频游戏这样的分类问题)蒙特祖玛的复仇),然后专注于寻找或设计一种算法来实现最佳性能。然而,有时我们不只是想解决已知的问题,因为未知的问题也很重要。这些可能是暴露(和解决)的关键的边缘情况(例如,在安全应用程序中),但它们也可能是必要的垫脚石,其解决方案可以帮助在更具有挑战性的问题上取得进展。因此,我们正在探索不断发明的算法这两个日益复杂和多样化的问题和解决方案。
同时产生问题和解决方案的最令人信服的原因之一是,这是解决一系列极其困难的挑战的唯一现实方法。要理解其中的原因,请考虑课程在教育方面。之所以有课程,是因为如果不先掌握基本技能,就很难学习高级技能或概念。这一原则不仅适用于课堂上的学生,也适用于学习算法:正如这个项目的结果(很快就会公布)所显示的那样,如果把那些很难或不可能直接学会的任务,作为一系列垫脚石任务(实际上是一门课程)的结尾,它们就会变得容易掌握。
然而,虽然课程在原则上对某些任务可能是必不可少的,但在实践中,我们面临的问题是,我们不知道任何给定任务的正确课程,我们也不知道只有在正确的时间和顺序下才能学习到的全部任务。事实上,很快就会看到,最好的课程往往是反直觉的,甚至是反向的(即,学习更难的任务可以使更简单的任务得到更好的解决方案)。因此,虽然课程通常是由手工明确设计的,但只有让课程本身在学习者遵循它的同时出现,才能揭示出所有可能的内容。
开放式提供了自我生成课程和许多其他方面的好处:在最好的情况下,它可以继续在一个辐射式的挑战树中无限地生成新任务,以及可以解决这一不断扩大的日益多样化和复杂的挑战的代理。
研究开放性的最初灵感之一是自然进化,它创造了近乎永恒的天文复杂性。雷竞技是骗人的进化实际上是一个开放式的过程,它在一次运行中创造了地球上所有形式的生命,而且这个过程仍在继续。值得注意的是,人类水平的智能产生的一个真实实例来自这个过程。而这个领域进化计算受到开放性的启发,在这方面没有进化算法接近自然,相反,在收敛(最多)到全局最优方面更接近传统的机器学习算法,而不是在可能的生命形式的空间中产生一棵生命树(或者更抽象地说,一组挑战,比如到达树上的叶子,以及他们的解决方案,比如长颈鹿和毛毛虫)。
而关于开放性的历史研究主要集中雷竞技是骗人的在创造人工世界(这通常与领域有关)人工生命),例如高山气候带,创造,Evosphere,Chromaria,最近深度神经进化的进展使开放性变得实用,并与机器学习相关。与传统进化算法(如遗传算法、进化策略等)可以归类为黑盒优化相比,受开放性概念启发的现代神经进化算法更侧重于发散和发现垫脚石(例如,科技查新,与本地竞争的新奇搜索,MAP-Elites,最小准则共同进化,创新引擎,CMOEA)。有趣的是,我们实验室最近的一项突破叫做去探索这创造了破纪录的表现蒙特祖玛的复仇而且陷阱也是受到这些想法的启发。的最小准则共同进化(MCC)算法尤其值得注意的是,它突出了在共同进化动态中生成新环境的潜力,尽管它没有采取在其环境中明确优化解决方案的步骤。此外,创新引擎通过将代理从一个环境转移到另一个更好的环境,介绍了在不同任务之间进行目标切换的想法,这通过利用一组不断扩大的垫脚石来进一步创新,从而催化进步。
介绍诗人
今天发布的成对开放式开拓者(POET)结合了这些想法,将这一研究方向明确地推向生成新任务,优化它们的解决方案,并在任务之间转移雷竞技是骗人的代理,以实现其他无法实现的进展。为了演示该方法,我们将POET应用于创建和解决双足行走环境(改编自BipedalWalker环境)OpenAI健身房,在一系列的雷竞技到底好不好用的帖子而且论文由大卫哈),其中每个环境E我与神经网络控制的因子a配对我它试图学习如何在环境中导航。下面的图1描述了一个环境和代理示例:
如下面的图2所示,POET从一个平凡的环境E开始0与随机初始化的代理a配对0,然后生长并维持一对一配对环境和代理的种群。在这一过程中,POET旨在实现两个目标:(1)使环境人口朝着多样性和复杂性发展;(2)优化智能体来解决它们的配对环境。在一次这样的运行中,POET生成了各种复杂且具有挑战性的环境,以及它们的解决方案。下面我们展示了POET发现的一些有趣的环境和解决方案:
![]() |
![]() |
图3:POET发现的有趣环境和解决方案的示例。
为了进化环境的种群,POET首先决定当前种群中的哪些环境有资格通过配对代理必须满足的分数阈值进行繁殖。这一要求防止将计算资源花费在当前过于困难的问题上。接下来,符合条件的环境发生突变(复制并进行轻微更改)以生成候选子环境,其配对代理被初始化为与来自父环境的代理相同。最后,POET评估候选子环境,用a过滤候选子环境最小的标准,按新奇的事物,并允许最优秀的候选人进入人口。在这项工作中,最小标准是配对智能体的适应度得分的下限和上限,它可以过滤掉对当前智能体群体来说过于简单或过于复杂的环境。新颖性提供了一种产生更多样化环境(挑战)的压力——它是一种量化衡量候选环境与之前接受的环境有多大不同的方法。考虑到计算资源最终是有限的,一旦达到了环境数量的上限,在接受任何新环境之前,POET会删除最古老的环境。
在这些实验中,代理被优化到在环境中与最近的变体的奖励最大化进化策略(ES),但任何强化学习或黑盒优化算法都可以代替它。大多数情况下,对代理进行优化以在它们所配对的环境中进行改进。重要的是,POET也定期进行表演转移探索在一个环境中优化的代理是否可以作为在另一个环境中更好表现的垫脚石的实验。这样,通过测试转移到其他活动环境,POET充分利用其多个代理-环境对的多样性,即不会错过任何从现有垫脚石获得优势的机会。有两种类型的传输尝试(图4):直接转移,其中来自原始环境的代理直接在目标环境中进行评估,并且建议转移,其中代理在目标环境中执行一个ES优化步骤(如果需要将有用的技能从源环境调整到目标环境,则需要进行一些优化)。如果传输更好,目标环境中现有的配对代理将被替换。
观察开放式发现
转移可以产生令人惊讶的故事,不太可能的垫脚石产生重要的进化进步。在一个例子中,原始环境只是平坦的地面,它的配对代理学习前进,而不完全站起来(图5,左上角图形)。这种步态表示局部最优,因为如果代理站起来,可能会有更有效的步态。在迭代400中,该环境生成带有一些残桩的子环境。最初的子代理从其父环境中继承了低膝行走的步态,这样它就可以在短桩环境中向前移动,但是它经常因为之前没有遇到的短桩而跌倒(图5,右上方图形)。最终,儿童环境中的代理学会了站起来并跳过树桩(图5,右中图)。然后,为了证明转移的偶然潜力,这项技能被转移了回来到父环境(图5,中左图形)的迭代1175。原来平坦环境中的智能体现在是直立的,这样搜索过程就逃脱了低膝局部最优。这种新的直立策略专门适应新的平坦环境,从而产生更快的步态。通过在平坦环境中对原始的低膝步态进行长时间的优化而不允许转移,我们证实了如果没有转移,这种更有效的直立步态将永远不会被发现(即,搜索确实停留在局部最优值上)。
父环境,迭代400 |
子环境,迭代400 |
|
![]() |
![]() |
|
父环境,迭代1175 |
子环境,迭代1175 |
|
![]() |
![]() |
|
父环境,迭代2300 |
父环境,迭代2300 |
|
![]() |
![]() |
图5。一个创新中转移效益的例子。
通过改变旧环境来创造新环境,POET实际上是在构建多个重叠的课程。从目前的垫脚石中合理解决环境的最低标准意味着课程是逐步建立的,而新颖性压力鼓励了各种各样的挑战,所有这些都发生在同一段时间内。在一次运行中连续生成这样的解决方案的能力本身就很有趣,但如果由此获得的技能不能直接从零开始学习的假设是正确的,那么它的重要性就会被放大。也许更有趣的是,正确的课程设置本身发现这些先进的技能是人类事先不容易想到的。换句话说,如果我们不能通过逐步引导学习者完成人为设计的一系列针对最终目标环境的日益困难的任务来达到POET所学习到的技能,那该怎么办?这个假设意味着POET或类似的东西必要的既要找到解决方案,又要找到通向解决方案的课程。
我们通过收集POET生成和解决的困难环境来验证这一假设,然后设计简单的增量课程,旨在从头开始重新实现相同的端点。每个简单的课程都反映了一种直观的观点,即一门好的课程应该如何建立——通过逐渐增加难度——但它不起作用!事实上,在POET发现的更有挑战性的环境中,没有一个尝试以这种方式重新创造行为,如图6所示。
图6中的每个玫瑰图都是一组实验,其中红色五边形表示POET创建和解决的环境。每个五边形的五个顶点表示粗糙度,以及间隙和残桩宽度范围的下限和上限。以红色五边形为目标,五个蓝色五边形表示五次独立运行基于直接路径课程的控制算法(使用相同的ES优化算法)所能解决的最接近目标的环境。课程从简单、平坦的环境开始,只要问题得到充分解决(根据POET中相同的标准),环境就会稍微改变,使其更接近目标环境(环境变化的量与POET中相同)。显然,控制算法不仅无法解决POET创建和解决的许多环境,而且控制算法能够解决的环境范围也比POET解决的环境范围窄得多(意味着POET代理可以处理环境中更广泛的挑战),这两者都证明了POET优于直接的课程构建的优势。
结论和未来工作
由于其差异性和对收集和利用垫脚石的关注,POET实现了以任何常规方式都无法达到的广泛的熟练行为。此外,POET创造了自己的挑战,而不是要求人类去创造它们。此外,许多挑战和解决它们的技能集都是在一次运行中发现的,而不是依赖于随机初始化和不同运行的特性来产生有趣的多样性。原则上,通过对环境空间进行更复杂的编码,POET可以在很长一段时间内,甚至无限期地继续发明新的挑战及其解决方案。开放性之所以吸引人,不仅是因为它在解决难题方面的实际好处,以及解决这些问题所需的技能,还因为它的创造力倾向和给我们带来惊喜的能力。由于这种惊喜的倾向,观察POET的输出通常很有趣,正如我们希望本文中的一些视频所传达的那样。POET也不依赖于用于优化的学习算法,因此它可以与任何首选的RL(或其他)方法相结合。
最终,我们设想在这个最初的概念证明中超越2D障碍赛,在一个有趣的领域中进行开放式的发现。例如,当跑酷已经在人类设计的障碍赛道上进行了3D探索,POET可以同时发明全新的赛道和解决方案。POET同样可以产生令人着迷的新物种柔软的机器人因为它发明了只有软体机器人才能解决的独特挑战。在更实际的层面上,它可以生成自动驾驶的模拟测试课程,既可以暴露独特的边缘案例,也可以演示解决方案。甚至更奇特的应用是可以想象的,比如发明新的蛋白质或化学过程,执行新的功能,解决各种应用领域的问题。给定任何具有多种变化潜力的问题空间,POET都可以在其中开辟一条道路。
我们希望其他人能加入我们,探索基于poet的探索的潜力。为此,我们提供了一个附带的研究雷竞技是骗人的文章与技术细节并有开源POET的代码.




















