抽象的
在本文中,我们介绍了一种新颖的价值函数形式,问:(S.那S.'),表达了从州过渡的效用S.到邻国S.'然后此后最佳地行动。为了获得最佳策略,我们开发了一个前向动态模型,该模型学会进行下一个最大化此值的下一个状态预测。此配方在仍在学习禁止的同时将动作从价值中解耦。我们在价值函数转移方面突出了这种方法的好处,在冗余动作空间内学习,以及从次优或完全随机策略生成的状态观测中学习禁止策略。可以使用代码和视频这个http ull.。
作者
Ashley D. Edwards.那Himanshu Sahni那Rosanne Liu.那简洪那Ankit Jain.那瑞旺那Adrien Ecoffet.那托马斯米多尼那查尔斯伊斯堡那Jason Yosinski.
出版物
第37国际机器学习会议(ICML),2020年
全文
注释