深度确定性动态梯度估算Q（S，S'）|ti8 竞猜雷竞技app优步工程博客雷竞技到底好不好用

具有深度确定性动态梯度的Q（S，S'）

Ashley D. Edwards.那Rosanne Liu.那简洪那Ankit Jain.那瑞旺那Adrien Ecoffet.那托马斯米多尼，和Jason Yosinski.

2020年6月8日

抽象的

在本文中，我们介绍了一种新颖的价值函数形式，问：（S.那S.'），表达了从州过渡的效用S.到邻国S.'然后此后最佳地行动。为了获得最佳策略，我们开发了一个前向动态模型，该模型学会进行下一个最大化此值的下一个状态预测。此配方在仍在学习禁止的同时将动作从价值中解耦。我们在价值函数转移方面突出了这种方法的好处，在冗余动作空间内学习，以及从次优或完全随机策略生成的状态观测中学习禁止策略。可以使用代码和视频这个http ull.。