第一届优步科学研讨会:讨论下一代RL, NLP, ConvAI和DL |优步工程博客ti8 竞猜雷竞技app雷竞技到底好不好用

第一届优步科学研讨会:讨论下一代RL、NLP、ConvAI和DL

马赫迪Namazifar，Gokhan病重，杰夫Clune，约翰·西尔斯，罗赞刘，徐宁,Zoubin Ghahramani

2019年2月12日

推特

投票

0股票

在Uber，数百名数据科学家、经济学家、人工智能研究人员和工程师、产品分析师、行为科学家和其他从业者利用科雷竞技是骗人的学方法解决我们平台上的挑战。从建模和实验到数据分析、算法开发和基础研究，我们团队使用的方法反映了我们致力于推动科学发现超越我们自己用例的范围。雷竞技是骗人的

2018年11月28日，优步科学界的成员举办了首届优步科学研讨会，这是一个定期活动，致力于讨论和合作数据科学、机器学习(ML)、人工智能(AI)、经济学、应用行为科学和其他科学领域的最新创新。在我们的首届研讨会上，来自学术界和工业界的与会者围绕ML和AI进行了一整天的演讲、研讨会和对话，主要集中在三个方面:强化学习(RL)、自然语言处理(NLP)和对话式AI，以及深度学习和深度学习基础设施。

通过我们的第一次研讨会和随后的研讨会，我们希望进一步与外部社区接触，在科学前沿建立联系并传播思想。

第一份优步科学研讨会传单

强化学习

强化学习(RL)是一个非常活跃的研究领域，推动了最近ML和AI领域的许多令人兴奋的突破。雷竞技是骗人的尽管取得了大量的成功，但使用RL的几个主要挑战，如样本效率、奖励稀疏性和安全性，已经被确定，这些挑战阻碍了它在工业上的更广泛采用。发言者的研究反映了这些问题的重要性。雷竞技是骗人的

研讨会上的许多演讲都讨论了与样本效率相关的挑战，即代理人希望通过很少的实际交互来学习高质量的政策。层次技能训练、迁移学习和元学习等主题积极寻求让智能体学习得更快。

另一个突出的主题是使用替代奖励机制来解决奖励稀缺性(游戏邦注:即玩家很少体验到积极奖励，并且很难在一开始便发现这种情况)。其中一些方法试图提供更简单、更可靠的学习，而另一些方法则鼓励智能体探索以前未见过的状态空间区域。此外，发言者还讨论了如何帮助RL代理的行为与我们希望它们执行的任务的意图保持一致。

OpenAI的Ilya Sutskever介绍了他的团队的最新研究。雷竞技是骗人的

Ilya SutskeverOpenAI的首席科学家，首先强调了OpenAI的三个令人兴奋的新研究项目:他们雷竞技是骗人的世界级的DOTA游戏代理人他们所做的复杂的工作灵巧的机器人操作,由好奇心引发的代理哪些公司在以挑战性著称的领域取得了进展蒙特祖玛的复仇．

在演讲的最后，他阐述了为什么人们不应该忽视人工通用智能在短期内发展的可能性，尽管存在很大的不确定性在图像生成、机器翻译和游戏等许多领域，过去6年的进展令人惊讶。他的结论是，如果算法继续进步，加上可用计算能力的数量级增长，短期内人工通用智能(AGI)很有可能实现。他认为，这就需要对AGI可能产生的风险进行积极的规划。

Anca德拉甘加州大学伯克利分校(UC Berkeley)的教授发表了这一主题的下一个演讲，题为“优化机器人为人类及其周围的行动”。她通过为人类构建具有“心智理论”的人工智能代理的范式，展示了她在人工智能安全方面的工作。在该框架中，agent将人类视为近似优化某些效用函数，这有助于它们更好地理解和预测人类行为，使agent能够更好地与人类协调。

为了描述这一点，Anca举了一个自动驾驶的例子，他需要能够在高速公路上驶入繁忙的车道。她还指出，如果机器人在线估计模型在多大程度上捕捉了当前人的行为，它也将能够在人们明显偏离其近似最优假设的情况下保持安全。

她演讲的最后一部分关注的是如何指定成本函数来实现预期行为的挑战。她指出，成本设计本身就是一种人机交互:机器人必须明白，给定的成本函数只是真实期望行为的代理，应该与人类合作，优化人类想要的东西。

接下来我们进行了小组讨论，由杰夫Clune优步AI实验室，由RL专家组成Satinder辛格密歇根大学教授，卡罗尔豪斯曼谷歌大脑，和阿布古普塔加州大学伯克利分校。讨论集中在RL社区的一些关键存在问题上:如何解释RL在工业中使用的公开例子的罕见性?如何提高样本效率?为什么我们没有看到更多的分层和基于模型的RL?RL是一种算法还是一种问题?关于所有这些问题都进行了有趣的讨论。

加州大学伯克利分校的Abhishek Gupta、谷歌Brain的Karol Hausman、密歇根的Satinder Singh以及优步人工智能实验室的Jeff Clune讨论了与RL研究相关的问题。雷竞技是骗人的

下午的RL会议以背靠背的谈话开始Satinder辛格而且约翰·舒尔曼OpenAI。第一个围绕奖励流展开，这是强化学习的一个基本组成部分。辛格教授首先提出了RL问题的重新表述:行为者不将奖励视为纯粹的外生奖励，而是有一个内部批评家，为他们提供一个私人的奖励信号。然后他介绍了最优奖励问题代理设计者必须选择一个奖励流来诱导给定的代理完成代理设计者的目标。这方面的一个例子是一个非常稀疏的奖励环境，在这种环境中，代理设计者可以提供面包屑，引导代理朝着预期的行为前进。他概述了解决这个问题的一种方法他之前的研究雷竞技是骗人的，它使用政策梯度进行奖励设计。他以一个描述结束了这部分的谈话最近的一篇论文和在NeurIPS去年12月。

John Schulman的演讲题目是“通过迁移实现更快的强化学习”。他通过指出RL算法(如策略梯度)需要大量数据来解释元学习领域的工作动机。元RL试图通过学习在相关任务的分布上最大化性能来最小化新任务所需的训练量。然后约翰描述了OpenAI的Sonic比赛在这场比赛中，他和他的同事邀请机器学习社区在大量的计算机上训练代理声波电子游戏关卡，然后在一套看不见的全新关卡上测试代理，这些关卡是为比赛而设计的。这种设置强调了智能体需要能够元学习如何快速学习玩游戏的不同实例。

有趣的是，一个广泛的结论是，尽管人们对元学习很感兴趣，并相信它的最终前景，但目前的元学习算法似乎并没有在尝试学习新任务之前，从不同版本的任务分布上的元学习中获得太多提升，而不是从头开始学习新任务，这表明仍有许多重要的研究有待完成，以利用元学习的好处。雷竞技是骗人的

OpenAI的John Schulman介绍了他在强化学习方面的研究。雷竞技是骗人的

Abhishek Gupta随后发表了一场名为“简化深度强化学习中的监督”的激动人心的演讲，详细介绍了AI社区可以减少RL中人类监督负担的方法。例如，指定奖励函数可能是一个挑战——高级别的请求(例如，将玻璃杯放在架子上)通常很少，对于代理来说很难学会最大化。奖励塑造可以让这变得更容易，但也可能是负担，容易产生意想不到的后果。的工作Abhishek(和其他人)将稀疏奖励与人类示威结合起来，帮助缓解了这个问题。他还讨论了他所做的工作模仿人类行为的原始视频，指导政策拥有自然的语言，和学习技巧没有奖励函数．

在当天的RL演讲结束时，Karol Hausman发表了题为“发现深度机器人学习中的潜在结构”的演讲。根据Karol的说法，关键思想是学习多个可重复使用的技能，并使用RL和变分推理将它们嵌入到技能空间中。这方法有可能允许智能体使用、组合和杂交丰富的、不同的技能，这有助于机器人学习解决复杂的任务。卡罗尔在各种模拟任务中表现出令人印象深刻的结果。他最近的工作进一步证明了使用任务表示来改进模拟到真实传输的能力(在这里而且在这里)．Karol最后强调了改进和利用这种方法的令人兴奋的未来方向。

自然语言处理和对话人工智能

我们研讨会的第二场主题是自然语言处理和对话式AI，分别由Uber NLP和ConvAI团队的总监Gokhan Tur和技术主管Mahdi Namazifar组织，日程排得很满，有15场演讲。由于在这一轨道中有大量的演示文稿，我们将在本文中不深入讨论每个演示文稿的内容，而是提供一个关于所演示内容的高级视图。

围绕这一主题的演讲有三个主题:

对话系统
自动语音识别(ASR)
自然语言处理(NLP)

Gokhan以一场演讲开场，概述了该领域的过去、现在和未来，并讨论了Uber在NLP和对话式AI方面的一些用例。

对话系统

这次活动举办了几场关于对话系统的演讲。教授玛丽Ostendorf她介绍了她的团队围绕2017年赢得第一名的Alexa奖竞赛项目所做的努力。

剑锋高来自微软研究院的研究人员介绍了雷竞技是骗人的Deep DynaQ的工作，该工作应用基于模型和无模型的RL来训练对话系统。他还介绍了他的团队目前和未来在这方面的研究方向。雷竞技是骗人的

Raefer加布里埃尔Alexa介绍了亚马逊围绕Alexa Prize比赛所做的努力，以及通过这些努力在评估NLP和对话系统的不同指标方面所取得的进展。

伊恩•莱恩卡内基梅隆大学的教授介绍了他的实验室在对话系统端到端训练中对用户和代理的联合建模的研究。雷竞技是骗人的伊恩以前的博士生，刘必应他目前就职于Facebook对话人工智能团队，展示了他对使用GANs的面向任务的对话系统的端到端训练的研究。雷竞技是骗人的

瑞安劳来自麦吉尔大学的教授谈到了评估对话系统性能的挑战，并强调了当前方法的问题以及开发新的评估方法的必要性。

Adwait Ratnaparkhi他介绍了Roku在其产品中提供基于对话的用户界面方面的努力。Trung中方来自Adobe Res雷竞技是骗人的earch的研究人员介绍了在Adobe产品中通过对话进行图像编辑的多模态对话系统，而不是传统的遍历菜单、单击等方式。

安东尼Rauxb4的CTO。Ai介绍了该公司通过会话技能层次构建高覆盖率、灵活和上下文感知的会话系统的方法。

湿婆Reddy来自斯坦福NLP小组的研究人员介绍了CoQA，一个用于对话式问答的新数据集，以及该小组在构建对话式问答系统方面的工作。

阿Rastogi从谷歌AI提出了解决语言理解和对话状态跟踪中的可伸缩性和效率问题的方法，以及响应生成的新方法。

自动语音识别

在我们的自动语音识别(ASR)追踪过程中，Chiori Hori介绍了ASR的简要历史，以及雷竞技是骗人的她在多模态对话系统和视听感知对话方面的最新工作。

帕特里克•阮谷歌AI展示了ASR的过去、现在和潜在的未来。Patrick概述了ASR的经典方法以及现代序列到序列方法及其面临的挑战。

谷歌AI的Patrick Nguyen讨论了他的团队在自动语音识别技术方面的工作。

自然语言处理

大StoyanovFacebook的应用机器学习团队谈到了为大量多语言平台(如Facebook)构建NLP产品的挑战，以及他们构建跨许多不同语言的通用词嵌入和通用句子嵌入的方法。

深度学习和深度学习基础设施

我们的最后一个轨道，深度学习和深度学习基础设施，包括来自工业实验室和学术界的研究人员的8场演讲。雷竞技是骗人的他们讨论的主题交织在一起，描绘了深度学习中最令人兴奋的想法，从理论方面开发健壮的多任务学习，通过合理的先验和损失选择，到构建人工智能数据中心和设计灵活的软件框架的工程方面。

深度学习基础设施

这条赛道以格雷格Diamos他是百度雷竞技是骗人的公司硅谷人工智能实验室(SVAIL)的研究负责人对人工智能最新进展的全面概述．在他的见解中，深度学习是由算法方面的突破，可以利用海量数据集和强大的计算加速器，如gpu。最后，他指出，专门的人工智能数据中心是使用深度学习来解决一些最难的开放问题的强大工具，也是在这些问题上超越人类准确性的途径。

ImageNet分类是一个重要的挑战，它被用来标记深度学习的进展。雅罗斯拉夫Bulatov的(来自南方公园公地)的演讲主要集中在从头开始构建计算设施的实践方面，被称为“如何在18分钟内训练ImageNet”，只需价值40美元的计算。Yaroslav一直致力于开发开源软件，以简化和民主化大规模深度学习。这次演讲的主要听众，以及他的工作，用他的话来说，是“那些不在谷歌或优步工作，但对大规模培训感兴趣的人。”

雅罗斯拉夫·布拉托夫回答了深度学习和深度学习基础设施环节组织者Rosanne Liu的提问。

詹姆斯·布拉德伯里谷歌Br雷竞技是骗人的ain的研究软件工程师，在他极富洞察力和信息丰富的总结中，向我们介绍了过去十年中加速变化的数十个深度学习框架。深度学习软件的过去和未来从1987年Yann LeCun的Lush开始，Theano、Caffe、Torch、TensorFlow、PyTorch和MXNet等框架都探索了各种实现、编译和运行深度学习模型的方法，但本质上都是由两个核心设计概念连接起来的:自动区分和加速器卸载。

在James看来，随着软件包向混合执行模型发展，一种概念上的综合正在这个领域出现，这种混合执行模型提供了历史上最好的两种主线程:命令式方法和基于图的方法。在他的演讲中，James描述了一些活跃的开源项目，这些项目利用编程语言研究和编译器工程的技术来协调灵活和动态编程模型和高效编译到专门加速器的有时相互矛盾的目标，包括PyTorch JIT、TensorFlow AutoGraph和Flux。雷竞技是骗人的jl，以及TensorFlow的Swift。

深度学习

第一个关于深度学习理论方面的演讲是由圣扎迦利利普顿卡耐基-梅隆。他在题为“分布转移下的稳健深度学习”的演讲中，首先指出机器学习模型在分布转移下会崩溃。根据Zachary的说法，虽然我们可能希望，当面对意想不到的输入时，设计良好的软件系统会发出警告，但目前的机器学习模型往往会在这种情况下失败。

扎卡里的工作重点介绍了处理这种分布转移的几种方法。在一种情况下，由疾病(目标)引起症状(观察)的医学诊断驱动，重点是标签转移，其中标签边际p(y)发生变化，但条件p(x|y)没有变化。在另一种情况下，他更广泛地研究了移位检测，专注于包括结构化输出和噪声输入的情况。

第二节理论深度学习讲座，由布莱恩麦肯他是Sa雷竞技是骗人的lesforce research的研究科学家，谈到了深度学习和NLP任务。虽然深度学习提高了许多NLP任务的性能，但每个任务通常都是单独处理的。在他的工作，他介绍了自然语言十项全能(Natural Language Decathlon, decaNLP)，这是一项跨越十项任务的挑战:问题回答、机器翻译、摘要、自然语言推理、情感分析、语义角色标注、零概率关系提取、面向目标的对话、语义解析和常识代词解析。

他还提出了一种新的多任务问答网络(Multitask Question answer Network, MQAN)，可以联合学习decaNLP中的所有任务，而不需要在多任务设置中设置任何特定于任务的模块或参数。MQAN显示了用于机器翻译和命名实体识别的迁移学习、用于情感分析和自然语言推理的领域适应以及用于文本分类的零镜头功能的改进。

来自Salesforce Research的Bryan M雷竞技是骗人的cCann介绍了新的十项自然语言挑战。

接下来,安德鲁·拉比诺维奇Magic Leap的机器学习主管讨论了NLP在计算机视觉问题领域的应用。在他的演讲“计算机视觉的多任务学习”中，安德鲁认为，深度多任务网络，其中一个神经网络产生多个预测输出，比单任务网络更具可扩展性，通常更正则化，但如果不找到任务之间的正确平衡，多任务网络也很难训练。Andrew继续提出了新的基于梯度的方法，通过直接调整梯度来平衡任务训练速率，从而自动平衡多任务损失函数。

生成对抗网络(GANs)因其在无监督学习和生成建模方面的潜力而引起了众多研究者的关注。雷竞技是骗人的然而,尽管生成高价值的艺术品他说，在美国，那些被承诺的范式一直没有真正的突破贾斯汀•约翰逊她是FAIR的研究雷竞技是骗人的员，即将成为密歇根大学安娜堡分校的教员。为了解决这个问题，Justin建议将GANs作为所谓的深度学习工具箱中的一种新型工具，用于具有多模态输出的监督学习问题。

在他的演讲“GANs as Perceptual Losses”中，他介绍了他最近的三个项目，这些项目来自所有相关但不同的工作领域，表明GANs在应用于监督视觉任务时确实会发光发热。Justin表示，虽然像欧几里得距离这样的损失函数不能转换图像中感知上重要的东西，但一个技巧是使用GANs来捕捉感知上相关的特征。在他的每个例子中，将gan作为损失函数的一部分进行了改进从场景图中合成图像，行人轨迹预测,基于鲁棒水印的信息隐藏．

结束轨道，谷歌大脑研究科学家雷竞技是骗人的山姆Schoenholz谈到了“深度无限网络的先验”，在那里他提出了一个发人深省的研究问题，关于两个合并的概念雷竞技是骗人的在当前的ML实践中。一方面，模型在给定数据集或任务上具有理论上的最佳性能。原则上，我们希望进行模型选择以最大化此峰值性能。另一方面，我们有超参数的体积，模型将达到合理的性能。这导致了一种情况，即无法判断架构调整是否真的提高了模型性能，或者只是使模型更具可训练性，并且大量的计算都用于超参数调优。

在他的演讲中，Sam描述了一个正在进行的使超参数选择更加系统化的努力，这表明，首先，对于各种架构，这个先验可以被精确量化，其次，理解这个先验的属性会带来更多有趣的发现，比如获得理论上激励的初始化方案，这些方案的性能优于实际使用的方案。

谷歌Brain的Sam Schoenholz鼓励机器学习从业者分享他们的超参数调优经验，最重要的是，包括他们的失败。

最后的评论

第一届优步科学研讨会是一个巨大的成功，我们感谢许多优秀的演讲者和组织者，使它如此。我们很高兴能够推出未来的版本，并继续将领先的外部研究人员与优步的科学界联系在一起。雷竞技是骗人的虽然人工智能是第一届优步科学研讨会的主题，但在接下来的研讨会中，我们将讨论与优步科学社区相关的其他领域。

如果你对大规模应对人工智能和数据科学挑战感兴趣，可以考虑申请一个角色我们的科研团队之一。

推特

投票

0股票