COTA:用NLP和机器学习改善Uber客户服务

2018年1月3日

推特65

投票3.

Reddit1

69股票

为了尽可能为用户提供最佳的端到端体验，Uber致力于让客户支持更容易、更容易获得。为了实现这一目标，优步的客户至上团队利用了五种不同的客户-代理沟通渠道由内部平台它集成了客户支持票证上下文，以便轻松解决问题。在全球400多个城市的平台上，每天都有数十万张门票出现，该团队必须确保代理商能够尽可能准确和快速地解决这些问题。

进入COTA，我们的客户痴迷票务助手，一个使用机器学习和自然语言处理(NLP)技术来帮助代理商提供更好的客户支持的工具。利用我们的米开朗基罗在我们的客户支持平台之上的机器学习即服务平台，COTA能够快速有效地解决我们90%以上的入站支持问题。

在本文中，我们将讨论创建COTA背后的动机，概述其后端架构，并展示这个强大的工具是如何提高客户满意度的。

COTA前的客户支持

当客户联系优步寻求支持时，我们及时为他们提供最佳解决方案是很重要的。促进这一点的一种方法是，当用户报告问题时，让他们在问题类型的层次结构中单击;这为我们的代理提供了关于问题的额外上下文，从而使他们能够更快地解决问题，如下图1所示:

图1:Uber的客户应用内支持流程为用户提供了一个直观易用的界面，突出显示行程细节，并建议问题类型以帮助选择路线。

尽管这提供了重要的上下文，但并不是解决问题所需的所有信息都可以通过这个过程获得，特别是考虑到可能的解决方案的多样性。此外，客户描述与票据相关的问题的方式的多样性进一步使票据解决过程复杂化。

随着Uber规模的不断扩大，支持代理必须能够处理不断增加的数量和多样性的支持票，从技术错误到票价调整。事实上，当代理打开票据时，他们需要做的第一件事是从数千种可能性中确定问题类型—这不是一项简单的任务!减少代理识别票据所花费的时间非常重要，因为这也减少了为用户解决问题所需的时间。

一旦选择了问题类型，下一步是确定正确的解决方案，每种票据类型拥有一组不同的协议和解决方案。有数千种可能的解决方案可供选择，确定每个问题的适当解决方案也是一个耗时的过程。

介绍COTA:顾客痴迷票务助理

我们设计COTA是为了帮助我们的客户支持代表提高他们的速度和准确性，从而改善客户体验。

简而言之，COTA利用米开朗基罗来简化、加快和标准化票务解决工作流程。当前版本的COTA由一组模型组成，这些模型向代理商推荐英语支持票证的解决方案，我们正在构建也可以处理西班牙语和葡萄牙语票证的模型。

基于我们的支持平台，我们的米开朗基罗式模型根据票务内容和行程背景提出了三种最有可能的问题类型和解决方案，如下所示:

如图2所示，一般的COTA体系结构遵循七个步骤流程:

一旦新票据进入客户支持平台(CSP)，后端服务将收集票据的所有相关特性。
后端服务然后将这些特征发送给Michelangelo中的机器学习模型。
该模型预测每个可能的解决方案的得分。
后端服务接收预测和分数，并将它们保存到Schemaless数据存储中。
一旦代理打开给定的票据，前端服务将触发后端服务以检查票据是否有任何更新。如果没有更新，后端服务将检索保存的预测;如果有更新，它将获取更新的特性并再次执行步骤2-4。
后端服务将根据预测分数排名的解决方案列表返回给前端。
向代理商推荐排名前三的解决方案;在此基础上，代理进行选择并解析支持票据。

结果很有希望;根据客户服务调查，COTA可以在提供与客户满意度相似或更高水平的服务的同时，将票务解决时间缩短10%以上。通过授权客户支持代理提供更快、更准确的解决方案，COTA强大的ML模型使优步支持体验更加愉快。

使用NLP和ML构建COTA后端

从外部看，COTA接受有关支持问题的上下文信息，并返回可能的解决方案，但在幕后还有更多的事情在发生。COTA后台的核心是负责完成两项任务:确定票据问题类型和确定最合理的解决方案。为了实现这一点，我们的机器学习模型利用了从客户支持消息、行程信息和前面概述的票务提交层次结构中的客户选择中提取的特征。

根据我们的模型生成的特征重要性得分(这并不令人意外)，用于识别问题类型的最有价值的特征是客户在通过层次结构正式提交票据之前向代理发送关于他们的问题的消息。由于用户发送的消息对于理解他们正在处理的问题很有用，我们构建了一个NLP管道，将几种不同语言的文本转换为下游机器学习模型的有用功能。

可以构建NLP模型来翻译和解释文本的不同元素，包括语音、形态、语法、句法和语义。根据构建单元的不同，NLP还可以注册字符级、单词级、短语级或句子/文档级语言建模。传统的NLP模型是通过利用人类在语言学方面的专业知识来设计手工特性来构建的。随着最近端到端的培训热潮深度学习模型，研究人员甚雷竞技是骗人的至已经开始开发模型，可以破译完整的文本块，而无需明确地解析句子中不同单词之间的关系，而是直接使用原始文本。

对于我们的用例，我们决定首先构建一个NLP模型，在单词级分析文本，以便更好地理解文本数据的语义。一种流行的NLP方法是主题建模，目的是通过单词的计数统计来理解句子的意思。尽管主题建模不考虑词序，但它已被证明对以下任务非常强大信息检索而且文档分类．

在COTA中，我们使用以下基于主题建模的NLP管道来处理文本消息，如图3所示:

预处理

我们首先通过删除HTML标记来清除文本。接下来，我们对消息的句子进行标记，并删除停止词。然后，我们进行词元化将不同屈折变化形式的单词转换成相同的基本形式。最后，我们将文档转换为单词集合(所谓的词汇袋)，并建立一个这些词的字典。

主题建模

为了理解我们的用户意图，我们在预处理后对单词袋进行主题建模。具体来说，我们使用TF-IDF(术语频率-逆文档频率)和文理学院(潜在语义分析)提取主题。下面的图4a显示了我们可能从主题建模中获得的主题类型的一些示例:

工程特性

主题建模使我们能够直接使用主题向量作为特征来执行问题类型识别和解决方案选择的下游分类。然而，这种直接方法存在主题向量稀疏的问题;为了对这些主题形成有意义的表示，我们通常需要保留数百甚至数千维的主题向量，其中许多维的值接近于零。由于有非常高维的特征空间和大量的数据需要处理，训练这些模型变得相当具有挑战性。

考虑到这些因素，我们决定以间接的方式使用主题建模:通过计算余弦相似度特征来执行进一步的特征工程，如图4b所示。以选择解决方案为例，我们收集每个解决方案的历史票据，并形成该解决方案的词袋表示。

在这个场景中，主题建模转换是在单词袋表示上进行的，它为我们提供了一个向量T我为解决方案我．我们在所有的解决方案中都进行了这种转换。我们可以映射任何新的入境机票，j，到解的主题向量空间，T1T2T…米,在那里米是要使用的可能解的总数。这就得到了一个向量tj对票j．余弦相似度年代ij可以计算在T我而且tj表示解之间的相似度我和机票j，将特征空间从数百或数千维减少到少数维。

逐点排序算法

同样，我们使用解选择作为示例来说明我们的ML算法是如何工作的。为了设计该算法，我们将余弦相似度特征与其他机票和行程特征相结合，将机票与解相匹配。COTA的巨大解决方案空间为我们区分这些解决方案之间的细微差异的算法提供了一个挑战，为数百种门票类型提供了超过1000种可能的解决方案。

为了确定支持代理的最佳推荐，我们应用了一种学习排序方法，并构建了一个基于检索的逐点排序算法。具体来说，我们将解和票对之间的正确匹配标记为正(1)，并对不匹配的解的随机子集进行采样，并将其标记为负(0)。使用余弦相似度以及票和行程特征，我们可以构建一个利用二元分类算法的二元分类算法随机森林用于分类每个解决方案-票证组合是否匹配的技术。一旦算法对每个可能的匹配进行评分，我们就可以对分数进行排序，并提出三个排名靠前的解决方案。

下面的图5比较了直接使用主题向量特征的经典多类分类算法与使用工程余弦相似特征的逐点排序算法的性能:

基于余弦相似度的逐点排序算法优于直接主题向量的多类分类算法，其精度相对提高了25%。这种比较是在相同的数据集上使用相同类型的算法(随机森林)和相同的超参数进行的，突出了在排名框架中使用工程余弦相似特征的好处。如图5所示，使用逐点排名算法不仅将训练过程加快了70%，而且还显著提高了模型性能。

更简单快捷的解决票据=更好的客户支持

COTA有希望的结果只有在转化为现实世界背景时才有意义。为了衡量COTA对我们的客户支持体验的影响，我们在网上对英语门票进行了几个受控的A/B测试实验。在这些实验中，我们包括了数千种药剂，并将它们随机分配到对照组或治疗组。对照组的工作人员接触到原始的工作流程，而实验组的工作人员看到的是修改后的用户界面，其中包含关于问题类型和解决方案的建议。我们收集了仅由控制组或处理组的代理解决的门票，并测量了一些关键指标，包括模型精度、平均处理时间和客户满意度得分。

测试过程如下:

我们首先测量了两组的在线模型表现，并将其与离线表现进行了比较。我们发现模型的性能从离线到在线是一致的。
然后，我们测量了客户满意度得分，并在对照组和治疗组之间进行了比较。总的来说，我们发现客户满意度通常会提高几个百分点。这一发现表明，COTA提供了相同或稍高的客户服务质量。
最后，为了确定COTA对票务解决速度的影响程度，我们比较了对照组和实验组之间的平均票务处理时间。我们确定，这个新功能平均减少了约10%的票务处理时间。

通过提高代理性能和加快票务解决时间，COTA帮助我们的客户至上团队更好地为用户服务，从而提高客户满意度。此外，COTA能够加快票务解决，每年为优步节省数千万美元。

下一代COTA的深度学习

COTA的成功说服我们继续试验我们的机器学习堆栈，以提高系统的准确性，并为代理和最终用户提供更好的体验。

最近的进展文本分类，摘要，机器翻译，以及许多辅助NLP任务(句法和语义解析，识别文本蕴涵，命名实体识别，而且链接)已经通过深度学习架构获得，所以开始在我们自己的模型中试验它们似乎是一个很自然的选择。

不同架构的深度学习实验

在研究人员的支持下雷竞技是骗人的Uber AI实验室，我们尝试将深度学习应用于下一代模型，用于问题类型识别和解决方案建议。我们实现了几个体系结构基于卷积神经网络(cnn),循环神经网络(rnn)，以及两者的几种不同组合，包括分层结构和基于注意力的架构。

使用深度学习框架，我们能够以多任务学习的方式训练我们的模型，单个模型既能识别问题类型，又能提出最佳解决方案。由于问题类型被组织到层次结构中，我们决定可以使用循环解码器来训练模型来预测层次结构中的路径定向搜索的解码组件序列到序列模型，从而可以做出更准确的预测。

超参数优化选择最佳模型

为了确定最好的深度学习架构，我们对所有类型的架构进行了大规模的超参数优化，在我们的GPU集群上并行训练它们。最终的结果表明，最准确的架构是同时应用CNN和rnn，但为了我们的研究目的，我们决定追求一个更简单的CNN架构，它的准确性稍低，但在训练和推理时间方面具有更高级的计算属性。雷竞技是骗人的最后，与原始随机森林模型相比，我们确定的模型提供了大约10%的准确性。

在下面的图6中，我们展示了数据覆盖率(换句话说，模型正在处理的票据的百分比，x轴)和该票据子集上的准确性(y轴)之间的权衡。如下图6所示，随着数据覆盖率的降低，两个模型都变得更加准确，但我们的深度学习模型在相同的覆盖率下表现出更高的准确度，在相同的准确度下表现出更高的覆盖率。

图6:将我们的深度学习模型与经典模型(随机森林)识别问题类型的能力进行比较，可以发现深度学习模型获得了更大的数据覆盖率和准确性。

通过与Uber的米开朗基罗团队的合作，我们正处于这些深度学习模型产品化的最后阶段。

下一个步骤

不用说，我们很高兴有机会进一步利用这些技术，使我们的代理商和用户的客户支持体验更加无缝。请继续关注我们的分析和实验的未来更新，因为我们将继续探索NLP深度学习的世界!

如果你有兴趣解决大规模推动业务影响的工程挑战，可以考虑申请我们的应用机器学习职位团队或者我们的旧金山而且帕洛阿尔托基于客户痴迷的工程团队。我F你对机器学习和自然语言处理研究感兴趣，了解与之相关的工作机会雷竞技是骗人的Uber AI实验室．

郑怀秀和王懿嘉是Uber应用机器学习团队的数据科学家，皮耶罗·莫里诺是Uber人工智能实验室的研究科学家。雷竞技是骗人的COTA是客户支持平台、应用机器学习、米开朗基罗和Uber AI实验室之间的跨职能合作。Hongwei Li, Andy Harris, Monis Ahmed Khan, Alexandru Grigoras, Viresh Gehlawat, Basab Maulik, Chinmay Maheshwari和Ron Tal也对这个项目做出了重要贡献。

推特65

投票3.

Reddit1

69股票