在Uber,我们在帮助下测试大多数新功能和产品实验为了理解和量化它们对市场的影响。实验结果的分析传统上专注于计算平均治疗效果(ATES)。
然而,由于平均值将整个分布减少到一个单一的数字,任何治疗效果的异质性都将被忽视。相反,我们发现计算分位数治疗效果(qte)使我们能够有效地描述治疗效果的完整分布,从而在优步市场中成千上万的乘客和司机相互作用时捕获治疗效果的内在异质性。
除了提供一幅关于新算法效果的更细致的图片外,这个分析还与我们的业务有关,因为人们对负面经历的记忆比正面经历更强烈Baumeister等人(2001)).在本文中,我们描述了QTES,他们究竟如何提供超越ATES的额外洞察力,为什么他们与优步等企业相关,以及我们如何计算它们。
区分Qtes和Ates
为了更好地理解qte与ATEs的区别,让我们关注一个特定的例子。假设我们想要分析改进算法对匹配给定特定目的地的骑手和最合适的司机的影响。
对于这个假设的示例,假设关注的结果度量是司机接乘客的时间,也称为预计到达时间(ETA)。使用Donald B. Rubin教授开发的潜在结果框架(见Imbens和Rubin(2015)),我们意指附加条款的转让对处理算法用和否则。我们将每个个体的潜在结果表示为.也就是说,骑手的预计到达时间是多少在现任或控制算法下,和是新的或处理算法下的ETA。当然,我们只观察骑手的一种结果因为我们不能将它们分配给新的和旧算法。我们表示观察到的结果和
![]()
另外,定义功能
和
.换句话说,
是新算法下eta的累积分布函数(CDF),和
为现有算法下eta的CDF。
到目前为止,描述结果差异的最广泛使用的方法是关注(人群)ATE,即,
.
尽管我们在两种算法下没有观察到相同的附加条件,但假设实验设计满足一组规则性假设,我们可以通过比较使用新算法的平均ETA和使用现有算法的平均ETA来估计ATE。
平均值有效地将大量信息总结为单个数字。例如,我们可以学习,新算法的平均ETA与旧算法的平均ETA(零焦点)不同。但这是否真的意味着两种算法之间没有有意义的差异?鉴于Uber团队杠杆的大量聚合和匿名数据,我们可以比分析吃得更好吗?
ATEs不能让我们了解治疗效果的异质性
正是因为平均值将所有信息缩小为单个数字,它们可以掩盖底层分布的一些微妙之处。例如,想象一下,下面的图1,描绘了骑行者的eta,用于治疗组(蓝色实线)和对照组(红色虚线)。两个分布都具有相同的均值,因此,吃得为零。然而,该图还揭示了新算法下ETAS的右手尾比旧算法下方大得多。也就是说,有许多骑手体验比旧算法下最长的ETA更长的骑手。在新算法下的较长eta的这些经验是由较低的eta的经历平衡,如朝向治疗分布左尾的质量增加所示。
需要注意的是,不同骑手之间治疗效果的异质性不一定是由于可观察的组件,如请求的位置,一天的时间,或天气。如果是这样的话,我们可以想象一个稍微复杂一点的实验分析,它将试图控制这些因素,并可能在这些可观察因素的条件下得出信息充足的ATEs。但事实上,优步市场上司机和乘客相互作用的绝对数量表明,治疗效果将存在异质性,这是任何可见因素都无法解释的。正是在这种情况下,qte真正提供了无法通过查看ATE而发现的额外见解,即使是在设置了任何可想象的可观察因素之后。
如果忽视这种异质性,后果自负
但即使骑手对待治疗效应存在差异,他们是否对业务进行了重要?是否业务相关的是,一些骑手在新算法下经历了更长的ETAS,或者骑手平均在ETAS中没有区别的重要事项?
由于大多数乘客与优步平台有多次互动,他们会随着时间的推移经历不同的eta。研究表明雷竞技是骗人的,消极经历在人们的记忆中比积极经历更突出。也就是说,即使一个给定的骑手平均经历了由新算法产生的相同的eta,会有一些比现有算法更长的eta,这一事实可能会导致那个特定的骑手思考eta得更糟。这意味着会计在比较比较普通ETAS超越的结果分布差异对业务很重要,这是QTES进入图片的位置。
定量位治疗效果让我们捕获这种异质性
为了捕获长期eta已经更长的想法,我们将QTE定义为特定量级的差异治疗下的结果分布和控制下的结果分布的相同分位数。也就是说,
![]()
使用与图1中的相同的ETAs分布如下图2,下面的图2描绘了图形的第95百分位数的QTE,即,
.注意,以这种方式定义的QTE并不能告诉我们a的ETA的差异具体的骑手。换句话说,这里定义的QTE不允许我们了解在现有算法下ETA为95百分位的特定骑手的新算法生成的ETA有多长。它只允许我们比较治疗组的ETAs在所有骑手中的分布的第95百分位数和对照组的ETAs在所有骑手中的分布的第95百分位数。但是因为我们在两种算法下没有观察到相同的附加条件,我们不能说任何关于两者之间的相关性
和
对于一个给定的骑手
(没有做任何进一步的假设)。因此,我们所希望从实验中学到的,只是有关兴趣结果的边际分布的信息。
考虑到实验后可以分析的大量数据,当然,我们可以计算许多不同量级的QTE,例如从第一个到第99个。如果我们在一个数字中绘制所有这些,那么结果的数字可能看起来像图3,下面是:
该图表明,从图1中的两种不同结果分布的检查所见,QTE对于低量子率为负负数,并且为高量级呈阳性。换句话说,短暂和长贱民这两个在新算法下更频繁。
这样的数据让我们对我们在优步的实验产生的影响有了更细致入微的了解。例如,qte分析让我们能够通过特定算法检测市场的恶化情况。这些恶化发生在度量的极端结果中,并且很容易在QTE的第95百分位检测到。与此同时,ATE的规模足够小,因此不会引起任何担忧。
通过量子回归计算QTES
类似于使用线性回归来计算ATES,我们可以使用量子回归来计算QTES(参见Koenker (2005)).这样做的一个优点是能够依赖现有的文献(如下所示),这些文献为估计开发了稳健的推理方法,可与线性回归的稳健推理相媲美。
虽然线性回归模型感兴趣的结果的条件均值函数,但定量回归模型条件分位式功能。为了估计QTE,我们指定了条件量级函数
![]()
然后
和
(见Koenker (2005)).因此,对一个常量和一个治疗指标进行感兴趣的结果的分位数回归,使我们能够在
-th分位数,就像同一类型的线性回归估计ATE一样。
与线性回归系数相似,分位数回归系数可以确定为某一特定优化问题的解。对于给定的分位数
系数
和
是解决方案
在哪里
![]()
和
是指标功能(见Koenker (2005)).与线性回归的情况相比,定量回归的目标函数不分辨率,并且存在几种不同的计算最小方法。一种可能性是将最小化问题写为线性程序并使用适当的求解器。然而,在优步,我们通过David R. Hunter和Kenneth Lange的算法解决了优化计算和图形统计杂志的文章.通过使用优化的线性代数例程开发该算法的有效实现,我们发现该算法可以很好地扩展到我们需要为单个实验分析的数百万次观察。
通过将定量的回归系数作为解决最小化问题的解决方案,我们可以使用(非可分辨率)M估计理论来得出其限制的分布。通过限制分布,我们可以为QTES获得置信区间。类似于线性回归的情况,文献中可以获得许多鲁棒推断结果。因此,例如,存在推理对异源性的鲁棒(金与怀特(2003)),自相关(Gregory等人(2018)),以及集群健壮的标准错误(Parente和Santos Silva (2015)).
前进
分位数处理效应(qte)使优步的数据科学家能够更好地识别我们的算法中的退化何时导致,例如,更长的乘车时间,提供了一个更精确的替代平均处理效应(ATEs)。这提高了分析实验效果的精度,然后允许我们以更有针对性的方式细化预估到达时间(ETAs)和其他指标之后的机制,从而提高我们平台上的乘客体验。
如果你对解决行业中一些最大的数据科学挑战感兴趣,可以考虑申请一个在我们团队中的角色!
致谢
Akshay Jetli、Stephan Langer和Yash Desai在本文中讨论的理念的技术实现方面发挥了重要作用。此外,我从与Sergey Gitlin的许多有益的讨论中获益。
参考:
- Baumeister,R. F .;E. Bratlavsky;C. Finkenauer;和K. D.VOHS,(2001),“坏于善,”一般心理学审查,5(4),323 - 370。
- Imbens, G.和Rubin, D.(2015),《统计学、社会和生物医学科学的因果推理:导论》,剑桥:剑桥大学出版社。
- 格雷戈里,k。拉希里,ñ。和Nordman,D.J.,(2018),“与时间序列的分位数回归的平滑块举动,”统计数据,46(3),1138 - 1166。
- Hunter,D. R.和K. Lange,(2000),“通过MM算法分量回归”,计算和图形统计,9,60-77。
- Kim, T. H., and H. White,(2003),“可能错指定分位数回归的估计、推断和规格检验”,载于《错指定模型的最大似态估计:二十年后》,T. Fomby和R. C. Hill编辑,107-132,纽约(NY): Elsevier。
- Koenker R.,(2005),Smastile Resotsion,纽约:剑桥大学出版社。
- Parente,P.和Santos Silva,J.(2015),“与聚类数据的分量回归”,“计量数据”,“经济学”方法,5(1),1-15。





