跳到页脚
首页 雷竞技是骗人的 人工智能/机器学习 去探索:解决难探索问题的新方法

去探索:解决难探索问题的新方法

摘要

强化学习的一大挑战是智能探索,特别是当奖励稀少或具有欺骗性时。有两款雅达利游戏可以作为这种艰难探索领域的基准:《Montezuma’s Revenge》和《Pitfall》。在这两款游戏中,当前的RL算法表现很差,即使是那些具有内在动机的算法,这是提高硬探索领域性能的主要方法。为了解决这一不足,我们引入了一种名为Go-Explore的新算法。它利用了以下原则:(1)记住以前访问过的状态,(2)首先回到有希望的状态(不进行探索),然后从中进行探索,(3)通过任何可用的手段(包括引入决定论)解决模拟环境,然后通过模仿学习进行鲁棒化。这些原则的综合效果是在难勘探问题上的显著性能改进。在《Montezuma’s Revenge》中,Go-Explore的平均得分超过了43k,几乎是之前的4倍。Go-Explore还可以利用人类提供的领域知识,当它得到增强时,在《蒙特祖玛的复仇》上的平均得分超过65万分。它的最大性能接近1800万,超过了人类的世界纪录,甚至达到了“超人”性能的最严格定义。在《陷阱》中,具有领域知识的Go-Explore是第一个得分高于零的算法。 Its mean score of almost 60k points exceeds expert human performance. Because Go-Explore produces high-performing demonstrations automatically and cheaply, it also outperforms imitation learning work where humans provide solution demonstrations. Go-Explore opens up many new research directions into improving it and weaving its insights into current RL algorithms. It may also enable progress on previously unsolvable hard-exploration problems in many domains, especially those that harness a simulator during training (e.g. robotics).

作者

阿德里安·EcoffetJoost惠钦格乔尔·雷曼肯尼思·o·斯坦利杰夫Clune

论文全文

“去探索:难探索问题的新方法”(PDF)

超级人工智能

评论
前一篇文章 图片素描:从图像中推断轮廓图
下一篇文章 成对开放式开拓者(POET):无休止地生成日益复杂和多样化的学习环境及其解决方案
阿德里安·Ecoffet
Adrien Ecoffet是Uber人雷竞技是骗人的工智能实验室的研究科学家。
Joost惠钦格
Joost Huizinga是优步人工智雷竞技是骗人的能的研究科学家。
乔尔·雷曼
Joel Lehman之前是哥本哈根IT大学的助理教授,主要研究神经网络、进化算法和强化学习。雷竞技是骗人的
肯尼思·o·斯坦利
在加入Uber AI实验室全职工作之前,Ken是中佛罗里达大学的计算机科学副教授(他目前正在休假)。他是神经进化(将神经网络与进化技术相结合)的领导者,在那里他帮助发明了杰出的算法,如NEAT, CPPNs, HyperNEAT和新奇搜索。通过最近出版的科普书籍《为什么伟大无法计划:目标的神话》,他的思想也得到了更广泛的读者。
杰夫Clune
Jeff Clune是怀俄明大学前Loy和Edith Harris计算机科学副教授,Uber AI实验室的高级研究经理和创始成员,目前是OpenAI的研究团队负责人。雷竞技是骗人的Jeff专注于机器人和通过深度学习和深度强化学习训练神经网络。他还利用进化的计算模型研雷竞技是骗人的究了进化生物学中的开放问题,包括研究模块化、层次结构和可进化性的进化起源。在成为教授之前,他是康奈尔大学的研究科学家,获得密歇根州立大学的计算机科学博士学雷竞技是骗人的位和哲学硕士学位,并获得密歇根大学的哲学学士学位。更多关于杰夫的研究可以在JeffCl雷竞技是骗人的une.com上找到