摘要
无模型深度强化学习(RL)方法已经成功地应用于各种模拟领域。然而,在现实世界中,深度RL面临的一个主要障碍是样本的高度复杂性。批策略梯度方法提供稳定的学习,但以高方差为代价,这往往需要大量的批次。td风格的方法,如政策外的行为者批评和q学习,是更有效的样本,但有偏,并经常需要昂贵的超参数扫频来稳定。在这项工作中,我们的目的是开发方法,结合稳定的政策梯度和效率的非政策RL。我们提出Q-Prop,一种政策梯度方法,它使用非政策批评的泰勒展开作为控制变量。Q-Prop既高效又稳定,有效地结合了政策上和政策外方法的优点。我们分析了Q-Prop和现有的无模型算法之间的联系,并利用控制变量理论推导出具有保守和激进自适应的两种变量Q-Prop。我们证明了保守的Q-Prop在可信区域策略优化(TRPO)和广义优势估计(GAE)上提供了大量的样本效率增益,并提高了深度确定性策略梯度(DDPG)的稳定性,DDPG是最先进的on-policy和off-policy方法,OpenAI Gym的MuJoCo连续控制环境。
作者
顾士祥,Timothy Lillicrap,Zoubin Ghahramani、理查德e特纳(Richard E. Turner)、谢尔盖莱文(Sergey Levine)
会议
ICLR 2016
论文全文
“Q-Prop:带有非政策批评的样本有效政策梯度”(PDF)
超级人工智能
评论