强化学习中行动依赖基线的幻影|优步工程博客ti8 竞猜雷竞技app雷竞技到底好不好用

强化学习中行为依赖基线的海市蜃楼

2018年2月27日

摘要

策略梯度方法是一种广泛使用的无模型强化学习算法，其中使用状态依赖基线来减少梯度估计方差。最近的几篇论文将基线扩展到同时依赖于状态和行为，并表明这显著减少了方差并提高了样本效率，而不会在梯度估计中引入偏差。为了更好地理解这一发展，我们分解了策略梯度估计器的方差，并在数值上表明，在通常测试的基准测试领域，学习到的状态-动作-依赖基线实际上并没有减少状态-依赖基线的方差。我们通过回顾这些先前论文附带的开源代码来确认这一意想不到的结果，并表明微妙的实现决策导致了与论文中提出的方法的偏差，并解释了先前观察到的经验收益的来源。此外，方差分解突出了需要改进的地方，我们通过说明对典型值函数参数化的简单更改可以显著提高性能来证明这一点。

作者

乔治·塔克，Surya Bhupatiraju，顾世祥，理查德·e·特纳，Zoubin Ghahramani谢尔盖·莱文

会议

ICML 2018

论文全文

“强化学习中依赖行动的基线的幻影”(PDF)

超级人工智能

推特

投票

0股票