跳转到页脚
首页 雷竞技是骗人的 人工智能/机器学习 Q-Prop:具有非政策批评的样本有效政策梯度

Q-Prop:具有非政策批评的样本有效政策梯度

0

摘要

无模型深度强化学习(RL)方法已经成功地应用于各种模拟领域。然而,在现实世界中,深度RL面临的一个主要障碍是样本的高度复杂性。批策略梯度方法提供稳定的学习,但以高方差为代价,这往往需要大量的批次。td风格的方法,如政策外的行为者批评和q学习,是更有效的样本,但有偏,并经常需要昂贵的超参数扫频来稳定。在这项工作中,我们的目的是开发方法,结合稳定的政策梯度和效率的非政策RL。我们提出Q-Prop,一种政策梯度方法,它使用非政策批评的泰勒展开作为控制变量。Q-Prop既高效又稳定,有效地结合了政策上和政策外方法的优点。我们分析了Q-Prop和现有的无模型算法之间的联系,并利用控制变量理论推导出具有保守和激进自适应的两种变量Q-Prop。我们证明了保守的Q-Prop在可信区域策略优化(TRPO)和广义优势估计(GAE)上提供了大量的样本效率增益,并提高了深度确定性策略梯度(DDPG)的稳定性,DDPG是最先进的on-policy和off-policy方法,OpenAI Gym的MuJoCo连续控制环境。

作者

顾士祥,Timothy Lillicrap,Zoubin Ghahramani、理查德e特纳(Richard E. Turner)、谢尔盖莱文(Sergey Levine)

会议

ICLR 2016

论文全文

“Q-Prop:带有非政策批评的样本有效政策梯度”(PDF)

超级人工智能

评论