神经：图形神经网络的学习结构化政策|优步研究雷竞技是骗人的

神经：通过图神经网络学习结构化政策

Renjie Liao

2018年2月1日

抽象的

我们解决了学习结构化政策以进行连续控制的问题。在传统的强化学习中，通过多层感知器（MLP）学习了代理的政策，这些策略将来自环境的所有观察结果作为预测行动的输入。在这项工作中，我们建议神经明确地对剂的结构进行建模，该结构自然采用图形的形式。具体而言，Nervenet是代理的政策网络，首先传播有关代理结构的信息，然后预测代理商不同部分的动作。在实验中，我们首先表明我们的神经与标准木鸡环境的最新方法相媲美。我们进一步提出了定制的强化学习环境，以基准测试两种类型的结构转移学习任务，即大小和残疾转移以及多任务学习。我们证明，与其他模型学到的策略相比，神经学到的政策明显更可转移和推广，即使在零射击设置中也能够转移。

作者

Tingwu Wang，Renjie Liao，吉米·巴（Jimmy BA），桑贾·菲德勒（Sanja Fidler）

会议

ICLR 2018

完整的纸

“神经：图形神经网络学习结构化政策”（PDF）

Uber ATG

注释

鸣叫

投票

0分享