Enhanced POET:通过无限发明学习挑战及其解决方案的开放式强化学习|优步工程博客ti8 竞猜雷竞技app雷竞技到底好不好用

Enhanced POET:通过无限创造学习挑战及其解决方案的开放式强化学习

瑞旺,乔尔雷曼,Aditya拉瓦尔大声回答,佳乐智,Yulun李,杰夫Clune,肯尼斯·o·斯坦利

2020年6月8日

摘要

创建开放式算法，可以产生自己的永不停止的新颖和适当的具有挑战性的学习机会，可以帮助自动化和加速机器学习的进展。在这个方向上最近迈出的一步是配对开放式开路者(Paired开放式开路者，POET)，这是一种生成并解决自己挑战的算法，并允许解决方案在挑战之间进行目标切换，以避免局部最优。然而，由于算法本身的限制和外部问题，包括有限的问题空间和缺乏通用的进度度量，原始的POET无法充分展示其创造性潜力。重要的是，这两个限制不仅对诗人造成了障碍，而且对一般的开放性的追求造成了障碍。在这里，我们介绍并实证验证了原始算法的两个新创新，以及两个外部创新，旨在帮助阐明其全部潜力。这四项改进一起实现了迄今为止最开放的算法演示。算法创新是(1)一种对新挑战有多大意义的领域通用度量，使系统能够无限地潜在地创建和解决有趣的挑战;(2)一种有效的启发式方法，用于确定代理何时应该从一个问题切换到另一个问题(帮助开放式搜索更好地扩展规模)。在算法本身之外，为了更明确地展示开放性，我们引入了(3)一种新颖、更灵活的方式来编码环境挑战，以及(4)一种衡量系统继续展现开放性创新程度的通用方法。Enhanced POET产生了一系列复杂的行为，解决了各种各样的环境挑战，其中很多无法通过其他方式解决。