人工智能

增强的诗人:开放式的强化学习通过无界发明学习挑战及其解决方案

通过

瑞王

- - - - - -

2020年5月6日

推特221年

投票1

280年股票

Clune杰夫和肯尼斯•斯坦利在这工作,文章的第二作者我们的相关研究论文雷竞技是骗人的。

机器学习(ML)的权力许多技术和服务支撑乳房的平台,我们投资在推进基本毫升研究和与更广泛的社区通过ML雷竞技是骗人的出版物和开源项目。去年我们介绍了成对的开拓者(诗人)探索的想法开放式的算法。现在,我们进一步完善项目名称增强的诗人,允许更多样的环境中,将一种改进的算法,并引入一个新的指标体系来衡量进展。

虽然进展毫升通常是通过静态的,hand-designed基准,理想情况下,机器不仅可以学会解决基准,而且自己发明的课程标准向前推进毫升。这就是为什么我们感兴趣的算法:他们提供的可能性产生无休止的流小说的学习机会和训练数据可以帮助自动化和ML加速进展。

开放性是完全不同的从传统ML,挑战和基准往往是手工设计和保持静态一旦实现(例如,MNIST和ImageNet图像分类,或者去强化学习)。后的传统模式,挑战或任务是解决,没有获得通过运行该算法不再在这个领域。

相比之下,开放式的算法不断推动自己前进的同时怀孕的挑战和解决方案在一个自治和无尽的时尚,建立自己的多样化和扩大(有时迂回)课程。一路上,发明的问题系统(和他们的解决方案)作为垫脚石对发现和解决更加复杂和具有挑战性的问题无法解决。

这种算法不需要依靠人类直觉来决定什么样的垫脚石应该纳入到课程或者他们应该以什么样的顺序遍历。可以发现在这两个方面在不断扩大异步并行计算和树不同的挑战和相应的解决方案。最终,这种开放式的框架的无尽的创造力可能成为垫脚石AI-generating算法(AI-GAs)能够引导自己从简单的开始到强大的解决问题。

诗人的到来

最近的进步在我们努力开发一个开放式的算法在超级人工智能成对的开拓者(诗人),它代表了一种新颖的开放性之路:它结合了最近的一些想法的优点发散搜索和以人群为基础的方法促进一个开放式的发现在一个运行的过程。

如图1所示,上图中,诗人保持和增长人口environment-agent对,每个代理在哪里解决成对环境优化。诗人通常开始于一个简单的环境,定期生成新环境通过应用突变(即随机扰动)编码当前活动的环境。一个环境是一个映射的编码参数向量的一个实例的环境下,创建一个环境搜索空间(所有参数向量的空间),允许新环境的实现被发现。

一旦生成,新的环境是过滤的最小的标准确保它们既不能太难,也不能太容易对现有代理商在当前人口,即他们可能会提供一个有前途的环境对学习进步。从那些满足最小的准则,只有最小说被添加到的人口,它把环境对获取有意义的不同的学习机会。

诗人也定期检查goal-switching机会:如果环境的另一个代理优于现任现任代替(上面的图1中虚线箭头,代表检查这种情况下),允许创建创新来解决一个问题,帮助解决别人。Goal-switching本质上创建多个,同时,重叠的课程,帮助诗人避免当地最适条件和解决具有挑战性的环境,无法通过直接优化或hand-designed课程来解决。

而诗人开放式计算运行奠定了良好的基础,最初的示范(称为原始的诗人从这里开始)的创造潜能是局限在一个概念域课程(修改的障碍OpenAI健身房)和少量的精心挑选,重复障碍类型(例如,树桩,差距,和粗糙表面),这从根本上限制了搜索空间的诗人可以探索。

这项新研究旨在解锁并展示诗人的全部潜力。我们已经介绍了一些创新,超越原始诗人的局限性,导致最开放的算法演示。这些创新包括:

- 一个更开放的领域:更富有表现力的环境创造了更多的开放式编码和多样化的环境比原始概念域的诗人。
- 对诗人的增强算法:一个新的domain-general配方(工作任何编码机制)计算环境之间的距离,诗人利用鼓励生产的新环境。我们也改进的goal-switching机制更好的计算效率。
- 一个衡量进步的:小说domain-general度量称为ANNECS (积累了许多小说环境创建和解决)监视和测量创新进步的开放式系统,包括诗人。

这些创新更详细地解释在本文的下面。

更开放的领域通过更富有表现力的环境编码

在最初的诗人,编码的2 d两足步行环境有限,本质上限制定义:小的一组精选的编码参数(例如,范围的树桩高度,间隙宽度,和表面粗糙度)只能支持有限数量的障碍类型与预定义的常规形状和有限的变化。创建一个更开放式的域为诗人探索,我们采用类神经网络成分pattern-producing网络(CPPNs)作为一个更加灵活和富有表现力的方法编码和创建环境挑战。

如图2所示,CPPNs创建2 d两足步行环境通过输出高y为每一个x分的景观。因为CPPNs通常由neuroevolution变异算法等整洁的因此可以长到任意复杂的体系结构,理论上他们可以表达任何可能在任何可能的决议或大小景观,显著扩大的可能性的宽度2 d双足步行环境。

图2。样本CPPN(左)及其生成的景观(右)。CPPN生产y坐标给出每个x坐标,然后渲染成一个双足沃克环境修改OpenAI健身房。

增强诗人:domain-general环境特性和更好的传输机制

而采用CPPN-based编码打开车门发现更多的开放式环境的诗人,它提出了一个问题:我们如何计算环境由CPPNs编码或之间的距离,更普遍的是,通过编码机制吗?这个问题是基本成功的诗人,等它依赖于测量距离鼓励生产的新环境。之间的平均距离越大给定的环境和其邻国,小说环境。

在最初的诗人,环境之间的距离仅仅是他们的编码向量之间的距离,编码是一种直接而清晰地描述环境本身(例如,粗糙的地形,树桩的范围高度,和差距大小的范围)。问题是,这样的环境和他们之间的直接映射编码不再存在,当我们转向更加灵活和富有表现力的编码机制(如CPPNs。

我们通过制定domain-general解决这个问题环境描述(EC)捕捉环境的独特的性质或特点在新诗人系统采用完全独立于任何编码机制。我们名字提出环境特征的表现所有传输代理EC (PATA-EC)仅仅因为它是接地的性能(在这里,特别是性能排名)的人群中所有当前代理执行当候选人环境中测试,而不是任何特定领域的信息。底层的直觉很简单:如果任何新生成的环境产生一个在现场的等级次序中的所有代理执行它(相对于其他环境),环境可能构成定性全新的挑战。下面的例如,图3描述了如何用肿块出现新的格局引发一个新的订购这三个示例代理,因为代理不同的行走步态可能跨过这些困难有不同的能力。

图3。撞在景观的出现引发的不同排名代理商不同的步态行走。例如,提出一个代理,走一条腿不节能的平地,因此排名最后,但步态恰好能跨过高凸起,从而在更恶劣的环境。

引入CPPN编码和PATA-EC使诗人能够探索更开放式的搜索空间和潜在的创新时间如果有足够的计算。

此外,我们提高原来的诗人的效率转移机制和经验文档效率提高,是我们附带详细描述纸。

ANNECS:一个新的方法来衡量进展的开放式系统

量化的算法的性能仍然难以捉摸了。由于没有先验预期结果,能够衡量进展,我们怎样才能判断一个开放式系统继续产生有趣的新挑战?

系统像诗人的问题共同进化无限期地与他们的解决方案,我们建议作为衡量进步——积累的新环境创建和解决(或ANNECS)从一开始就运行。更具体地说,对于任何新创建的环境被ANNECS数,它必须(1)通过(即最小准则。,它既不太难也不太容易)来衡量所有生成的代理在整个当前跑到迭代,和(2)最终得到解决的系统。实际上,这些标准确保我们计算环境,提出一个新颖的挑战之前的代理,但否认信贷生成不可能的场景。

我们建议的指标直接关系到开放式的整体有效性过程:运行收益,ANNECS持续上升表明,底层算法不断创造有意义的新环境。

增强诗人结果

增强诗人与新CPPN-based环境编码能够创建和解决一个大型的多样性环境在一个run-environments定性不同比由原来的诗人。比较那些从原来的诗人在图4中所产生的增强诗人在图4 b中,如下。(更多的例子是包含在我们的陪同纸。)

CPPN-encoded环境由增强诗人表现出各种各样的障碍在整体上显著不同的形状,高度,和细节。他们配对的代理证明等多样化的技能穿越极度不规则脚下(让人想起干附近火山熔岩流)或从高处坠落后准备着陆。如果你感兴趣,一定要检查例子的视频增强诗人代理在这个超级人工智能的YouTube频道。

(a)样本环境(和他们配对代理)由原来的诗人。

(b)样本环境(和他们的代理)配对产生的增强的诗人。

图4 a和4 b。比较样本从(A)简单的环境,hand-designed编码在最初的诗人和(b) CPPN-encoded环境创建和解决增强诗人。

这种多样性也反映在种系发生树的环境增强诗人创造了在每次运行,表现出一个清晰的签名的算法:多深,分层次嵌套分支,像那些从自然的发展史,如图5所示,如下:

图5。诗人在每次运行构建树的不同环境不断扩大。每个节点代表一个独特的环境挑战,诗人发明。在每个节点,每个2 d障碍课程的整体形状(非常小)线描绘的情节。高分辨率版本,请参考图10的陪同纸。动画,从其根树生长环境中被添加的顺序在一个增强的诗人。

自动生成这些学习的挑战及其解决方案后,我们的最后一步是应用ANNECS(进步的新的衡量标准)来评估最初的诗人和增强算法,如图6所示,如下:

图6。比较ANNECS度量原始诗人和增强的诗人。最初的诗人逐渐失去创建有意义的新挑战的能力,因此高原后约20000迭代。相比之下,增强诗人保持创新能力,理由是它的ANNECS分数持续增加。绘制在五分中值(实线)和95%引导置信区间的中值(阴影区域)。

原来的诗人逐渐失去了它的能力创造有趣的新挑战,ANNECS曲线如图所示的20000次迭代后达到稳定期、增强诗人保持其势头,因此其ANNECS值持续增加中。

这个结果与我们的期望,有限的环境编码原始诗人不能支持长期的创新。增强的诗人,另一方面,维持更长时间,因为更多的表现力和开放式创新CPPN-based编码在这个工作可以支持更有意义的环境多样性,并且由于domain-general PATA-EC和改进传输策略成为可能和有效探索这样一个空间。

开放性的承诺

另一个特别引人注目的结果显示在我们的纸有助于说明为什么开放性是如此重要。事实证明,同样的学习算法执行时非常不同嵌入在诗人和当它不是。特别是,神经网络的算法优化代理在上面的实验叫做诗人进化策略或ES(尽管其他RL算法也可以使用诗人)。

有趣的是,如果任务是在自己的与诗人解决解决环境挑战之一,它几乎总是失败。事实上,它甚至失败如果ES结合线性课程旨在缓解的方法解决的挑战。然而,引人注目的是,很明显可以解决这些挑战,因为它是诗人的优化算法解决他们!只是,这只解决了他们当它是一个包罗万象的开放式的过程的一部分。

一般的教训是,优化算法可能只能够解决一些困难的问题时,嵌入在诗人的开放式的,不同的搜索过程。这个结果最初是在原来的诗人纸与增强的诗人,我们再次肯定,其影响更为重要,因为大得多的环境空间。

认为一个算法只能发挥自己的潜能,当嵌入过程没有明确的目标取决于洞察力的垫脚石,我们不能提前知道必须遍历以达到一个遥远的成就。原始诗人克服了这个障碍,从无数的分支路径收集垫脚石通过搜索空间,许多爬向更高的复杂性。而开放式搜索的原始诗人奠定了基础,增强诗人算法为我们铺平了道路继续推动开放式的边界算法和探索开放性的潜力。如果我们可以设想一个域没有界限,或者至少与范围超出了我们的理解,我们总有一天会建立在增强诗人的思想实现的东西远远超出我们的想象。这是令人兴奋的开放性的承诺。

我们希望其他人能加入我们的旅程。为此,我们不仅是释放纸完整的技术细节,但也有开源增强的诗人的代码。

确认
我们感谢超级人工智能的一些成员,特别是Joost惠钦格托马斯•Miconi保罗•Szerlip劳伦斯•穆雷和简挂有益的讨论。我们感谢Leon Rosenshein Joel雪Thaxton Beesley,科罗拉多数据中心团队,整个作品团队提供我们在超级计算平台和技术支持。

推特221年

投票1

280年股票

增强的诗人:开放式的强化学习通过无界发明学习挑战及其解决方案

诗人的到来

更开放的领域通过更富有表现力的环境编码

增强诗人:domain-general环境特性和更好的传输机制

ANNECS:一个新的方法来衡量进展的开放式系统

增强诗人结果

开放性的承诺

受欢迎的文章

满足米开朗基罗:超级机器学习平台

引入面向领域Microservice架构

超级的大数据平台:100 + pb分钟延迟

为什么超级工程从Postgres转向MySQL

H3:超级的六角层次空间索引

介绍路德维希,无代码深学习工具箱

这个超级工程技术堆栈,我部分:基础

引入AresDB:超级的增强开源,实时分析引擎

预测在超级:介绍

介绍基础Web,超级的新设计系统构建网站…

展示超级在我们背后的工程技术

满足米开朗基罗:超级机器学习平台

工程与超级ATG Million-Mile旅程