Q-Prop:具有非政策批评的样本有效政策梯度雷竞技是骗人的

Q-Prop:具有非政策批评的样本有效政策梯度

2016年11月1日

摘要

无模型深度强化学习(RL)方法已经成功地应用于各种模拟领域。然而，在现实世界中，深度RL面临的一个主要障碍是样本的高度复杂性。批策略梯度方法提供稳定的学习，但以高方差为代价，这往往需要大量的批次。td风格的方法，如政策外的行为者批评和q学习，是更有效的样本，但有偏，并经常需要昂贵的超参数扫频来稳定。在这项工作中，我们的目的是开发方法，结合稳定的政策梯度和效率的非政策RL。我们提出Q-Prop，一种政策梯度方法，它使用非政策批评的泰勒展开作为控制变量。Q-Prop既高效又稳定，有效地结合了政策上和政策外方法的优点。我们分析了Q-Prop和现有的无模型算法之间的联系，并利用控制变量理论推导出具有保守和激进自适应的两种变量Q-Prop。我们证明了保守的Q-Prop在可信区域策略优化(TRPO)和广义优势估计(GAE)上提供了大量的样本效率增益，并提高了深度确定性策略梯度(DDPG)的稳定性，DDPG是最先进的on-policy和off-policy方法，OpenAI Gym的MuJoCo连续控制环境。

作者

顾士祥，Timothy Lillicrap，Zoubin Ghahramani、理查德e特纳(Richard E. Turner)、谢尔盖莱文(Sergey Levine)

会议

ICLR 2016

论文全文

“Q-Prop:带有非政策批评的样本有效政策梯度”(PDF)

超级人工智能

推特

投票

0股票