通过强化学习的协作多代理对话模型培训|ti8 竞猜雷竞技appUber工程博客雷竞技到底好不好用

通过强化学习的协作多代理对话模型培训

Alexandros Papangelis，，，，Yi-Chia Wang，，，，皮耶罗·莫利诺（Piero Molino），和Gokhan Tur

2019年7月1日

抽象的

我们提出了第一次完整的尝试，同时培训仅通过自我生成的语言进行交流的对话代理。使用DSTC2作为种子数据，我们为每个代理商培训了自然语言理解（NLU）和发电（NLG）网络，并让代理商在线互动。我们将互动建模为随机协作游戏，每个代理商（玩家）都有一个角色（“助手”，“旅游”，“食者”等）及其自己的目标，并且只能通过产生的自然语言进行互动。因此，每个代理都需要在具有多种不确定性来源的环境中学习最佳操作（其自己的NLU和NLG，另一个代理的NLU，策略和NLG）。在我们的评估中，我们表明随机游戏代理的表现优于基于深度学习的监督基线。