文摘
传统的勘探方法在RL要求代理执行随机操作找到回报。但是这些方法sparse-reward域Montezuma的复仇这样任何随机行动序列的概率极低的奖励。最近的算法表现良好在这样的任务,鼓励代理访问新国家或执行新的操作与先前的所有训练集(我们称之为across-training新奇)。但这种算法不考虑代理展品intra-life新奇:做一些新的东西在当前事件,无论这些行为已经在前几次。我们假设across-training新奇可能阻止代理回顾最初非州可能成为重要的垫脚石后培训。介绍深好奇心搜索(DeepCS),鼓励intra-life探索通过奖励代理访问每集内尽可能多的不同状态,并显示DeepCS当前最先进的方法的性能匹配Montezuma的报复。我们进一步证明DeepCS Amidar提高勘探,高速公路,Gravitar, Tutankham(其中许多是努力探索游戏)。令人惊讶的是,DeepCS双打A2C Seaquest性能,一个游戏,我们就不会将受益于intra-life勘探,因为舞台很小,已经轻松地导航天真的勘探技术。在一个运行,DeepCS达到最大训练在Seaquest得分80000分,高于Ape-X以外的任何方法。DeepCS这些稀疏的强劲表现,dense-reward表明鼓励intra-life新奇是一个有趣的任务,改善性能的新方法在深RL和激励进一步研究组合across-training和intra-life勘探方法。雷竞技是骗人的
作者
克里斯托弗·斯坦顿杰夫Clune
论文全文
深深的好奇搜索:Intra-Life勘查可以提高性能上具有挑战性的深度强化学习问题的(PDF)
超级人工智能
评论