跳到页脚
雷竞技是骗人的 人工智能 /机器学习 通过强化学习的协作多代理对话模型培训

通过强化学习的协作多代理对话模型培训

抽象的

我们提出了第一次完整的尝试,同时培训仅通过自我生成的语言进行交流的对话代理。使用DSTC2作为种子数据,我们为每个代理商培训了自然语言理解(NLU)和发电(NLG)网络,并让代理商在线互动。我们将互动建模为随机协作游戏,每个代理商(玩家)都有一个角色(“助手”,“旅游”,“食者”等)及其自己的目标,并且只能通过产生的自然语言进行互动。因此,每个代理都需要在具有多种不确定性来源的环境中学习最佳操作(其自己的NLU和NLG,另一个代理的NLU,策略和NLG)。在我们的评估中,我们表明随机游戏代理的表现优于基于深度学习的监督基线。

作者

Alexandros Papangelis,,,,Yi-Chia Wang,,,,皮耶罗·莫利诺(Piero Molino),,,,Gokhan Tur

会议

Sigdial 2019

完整的纸

“通过强化学习的协作多代理对话模型培训”(PDF)

Uber AI

注释
上一篇文章 作为研究人员的利益相关者:授权非雷竞技是骗人的研究者与消费者直接互动
下一篇文章 使用延迟采样的活着的粒子过滤器,用于进化的出生死亡模型的概率编程
Alexandros Papangelis
Alexandros Papangelis是Uber AI的高级研究雷竞技是骗人的科学家,在对话人AI团队上;他的兴趣包括统计对话管理,自然语言处理和人机社会互动。在加入Uber之前,他曾在东芝研究欧洲(Toshiba Researc雷竞技是骗人的h Europe),领导剑桥研究实验室的统计口语对话团队。在加入东芝之前,他是CMU Articulab的博士后研究员,与Justine Cassell合作设计和开发了下一代社会化的虚拟代理商。他获得了德克萨斯大学阿灵顿分校的博士学位,伦敦大学学院和雅典大学的理学学士学位。
Yi-Chia Wang
Yi-Chia Wang是Uber 雷竞技是骗人的AI的一名研究科学家,重点是对话AI。她获得了博士学位来自卡内基·梅隆大学计算机科学学院的语言技术学院。她的研究雷竞技是骗人的兴趣和技能是结合语言处理技术,机器学习方法和社会科学理论,以统计分析大规模数据并建模人类 /人类机器人行为。她在顶级会议/期刊上发表了20多份同行评审的论文,并获得了奖项,其中包括Chi Haronable提及的纸质奖,CSCW最佳纸质奖和AIED最佳学生纸提名。
皮耶罗·莫利诺(Piero Molino)
皮耶罗(Piero)是斯坦福大学朦雷竞技是骗人的胧研究小组的员工研究科学家。他是Uber AI的前创始成员,他创建了路德维希(Ludwig),从事应用项目(COTA,Uber Eats的图形学习,Uber的对话系统),并发表了有关NLP,对话,可视化,图形学习,加强学习和计算机视觉的研究。雷竞技是骗人的
Gokhan Tur
Gokhan Tur是Uber AI工程主任。