跳转到页脚
雷竞技是骗人的 人工智能和机器学习 强烈的好奇心搜索:Intra-Life勘查可以提高性能具有挑战性的深层次的强化学习问题

强烈的好奇心搜索:Intra-Life勘查可以提高性能具有挑战性的深层次的强化学习问题

0

文摘

传统的勘探方法在RL要求代理执行随机操作找到回报。但是这些方法sparse-reward域Montezuma的复仇这样任何随机行动序列的概率极低的奖励。最近的算法表现良好在这样的任务,鼓励代理访问新国家或执行新的操作与先前的所有训练集(我们称之为across-training新奇)。但这种算法不考虑代理展品intra-life新奇:做一些新的东西在当前事件,无论这些行为已经在前几次。我们假设across-training新奇可能阻止代理回顾最初非州可能成为重要的垫脚石后培训。介绍深好奇心搜索(DeepCS),鼓励intra-life探索通过奖励代理访问每集内尽可能多的不同状态,并显示DeepCS当前最先进的方法的性能匹配Montezuma的报复。我们进一步证明DeepCS Amidar提高勘探,高速公路,Gravitar, Tutankham(其中许多是努力探索游戏)。令人惊讶的是,DeepCS双打A2C Seaquest性能,一个游戏,我们就不会将受益于intra-life勘探,因为舞台很小,已经轻松地导航天真的勘探技术。在一个运行,DeepCS达到最大训练在Seaquest得分80000分,高于Ape-X以外的任何方法。DeepCS这些稀疏的强劲表现,dense-reward表明鼓励intra-life新奇是一个有趣的任务,改善性能的新方法在深RL和激励进一步研究组合across-training和intra-life勘探方法。雷竞技是骗人的

作者

克里斯托弗·斯坦顿杰夫Clune

论文全文

深深的好奇搜索:Intra-Life勘查可以提高性能上具有挑战性的深度强化学习问题的(PDF)

超级人工智能

评论
前一篇文章 Pathwise Reparameterization技巧以外的衍生品
下一篇文章 PIXOR:实时3 d对象检测从点云
杰夫Clune
杰夫Clune前阿来和伊迪丝·哈里斯怀俄明大学的计算机科学副教授,高级研究经理和超级人工智能实验室的创始成员之一,在OpenAI和目前的一个研究小组领导人。雷竞技是骗人的杰夫关注机器人和训练神经网络通过学习和强化学习。他也在进化生物学研究开放雷竞技是骗人的式问题用进化的计算模型,包括研究模块化的进化起源、层次结构和可发展性。之前成为一个教授,他是康奈尔大学的科学家,获得了计算机科学博士学位,从密歇根州立雷竞技是骗人的大学哲学硕士学位,并获得了学士学位从密歇根大学的哲学。更多关于杰夫的研究可以在JeffCl雷竞技是骗人的une.com上找到