在我们的首届优步技术日,数据科学家冯伊娃交付了演示文稿关于优步的实验平台(XP)。在这篇文章中,她和同事Zhenyu Zhao详细介绍了优步设计了一个能够稳定地滚动新功能的XP。
移动应用程序的功能开发的生命周期由识别机会,原型,实验,发射,精炼和识别机会。实验是产品生命周期的关键阶段;它是发现和确定新功能是否成功的过程。鉴于优步的超生长,我们XP的目标是确保新功能成功推出,然后返回可操作的分析。
Uber的XP是独一无二的在这个行业中,因为我们不仅推出实验,而且还在全国甚至全球范围内推出特色产品,这几乎可以立即改善人们(现在是食物)在物理世界中绕过。
最初,这种跨越产品和市场的巨大规模使得构建一个具有不同编程背景和偏好的多个团队都能理解和使用的XP具有挑战性。如今,优步的许多团队使用XP为他们的产品部署功能,包括乘客、司机和UberEATS应用程序。
在本文中,我们将讨论在开发我们的XP的两个主要组件——阶段性展示和智能分析工具——以及我们最终产品的实现结果时所面临的挑战和机遇。
世界是一个舞台(d推出)
Uber实验生命周期的第一个要素是阶段性推出,即先向一小部分用户部署一项功能,然后逐步升级到较大比例的阶段。最终,我们会接触到所有属于目标规格的用户(例如,地理位置,可以小到一个城市的区域,也可以大到整个世界)。
分阶段推出的目标是通过在早期阶段控制用户暴露,并在每个阶段监控特性对关键业务指标的影响,使新特性的部署尽可能稳定和可靠。分阶段推出不同于标准的A / B测试如下表所述,在许多方面:

如果推出的目标人群很大,并且缺乏有效的监控来度量特性对关键业务指标的影响,那么特性推出可能有风险。
架构新功能卷展栏系统
我们开发的XP有两个组件:暂存的推出配置过程和新的监控算法。为了控制用户曝光错误的风险,我们将推出过程阶段逐渐升级。为了实现更高效和精确的卷展栏监控,我们使用算法,该算法使我们能够连续监控特征在密钥指标上的影响,同时控制误报率。
这零假设新功能(处理)对关键指标没有负面影响。例如,该算法不是报告来自高级别的原始旅行数量,而是识别控制组(功能禁用组)和治疗组(功能启用组)之间的旅行率(定义为包含旅行的会话的比例)差异是否显著。
为了确定这些度量之间的差异是否在连续监测时具有重要意义,我们使用三种不同类型的测试进行实验,进行T检验顺序似然比测试(SLRT),delete-a-group重叠variance估计,在我们的算法中。
我们尝试使用的第一次测试是T检验。我们的T检验在置信水平95%的置信水平下产生了50%的误差率为50%。这一结果是预期的,因为T-Test,如其他固定地平线测试,不设计用于连续监测。
接下来,我们决定调整我们的算法以执行SLRT独立假设希望能准确地检测出回归。虽然SLRT模型比t检验模型更准确,但SLRT的原始格式给出的假阳性率略高于30%。因为我们的指标是在会话级别上执行的,所以当两个独立的会话来自同一用户时,它们的行为是高度相关的,这是一个问题。
我们尝试的最后一个检验是序列似然比检验使用删除-a-组重叠方差估计。我们发现,该测试在持续监测时提供了5%的假阳性率,这足以满足我们的需求。
成就和成果
从我们最初的测试开始,这个阶段性的框架已经被证明是Uber许多功能部署不可或缺的。它已经被不同的产品团队广泛采用,并且已经发现了由功能在低推出阶段引起的回归,从而减少了它们对用户的影响。
这种回归发生在登录特性推出期间,导致一小部分用户中断。一个允许用户使用他们的电话号码而不是用户名登录的新功能被部署在一个城市作为阶段性的推出。当我们为该地区的应用用户部署这一新功能时,我们发现他们的出行率有所下降;通过一些调查,我们发现治疗组中有很多用户无法使用手机号成功登录app。幸运的是,我们的XP的分阶段分析功能能够在它被部署到这个国家的所有用户之前检测到这一点,并防止了全面中断。
智能分析工具
随着优步继续向新城市扩张,并在现有城市扩大业务,提供实时实验结果的需求比以往任何时候都更加重要。例如,城市运营管理团队经常使用XP来调整新功能,包括测试新的短信短信,并为每个城市量身定制司机的上车体验。
由于在不同的时区工作的困难,它以前的差别大约需要几天的时间为城市运营管理者与XP团队合作,以在卷展栏之后运行分析报告。通过我们的新框架到位,我们已经能够在执行时间内减少日期,以便在延迟非常短的位置,将实验结果提供给城市运营团队。
定义XP架构
为了优化我们的分析速度,我们最初预先计算了我们的业务指标的统计价值蜂巢。然而,这种计算统计值的方法并没有给我们的终端用户提供足够的灵活性来定制他们的度量的定义。
新的分析工具没有预先计算指标的数据,这会降低我们的数据存储费用并减少了我们的分析生成时间。现在,当数据准备好分析时,我们使用一个SQL当人们在WebUI上提出请求时,查询文件要生成度量标准。之后,我们使用Scala作为我们的服务引擎来计算概率(假定值),表示处理组均值与对照组均值有显著差异,确定实验是否达到目标样本量。
XP背后的科学
优步的新型智能分析工具进行实验后分析,该分析使用不同的方法,而不是之前的分阶段的卷展栏用例。出于此工具的目的,我们将数百个指标分为三类:比例指标,连续度量和比率度量。我们还与优步的实验和研究团队合作了设计方法,以评估治疗组在与对照组相比时提供更大的升力。雷竞技是骗人的
我们的Uber XP团队致力于通过阶段性的推出过程和实验后的分析工具来提高应用的稳定性。在2017年及以后,我们将进行更多的实验,让优步在现实世界中对司机和乘客更加有效和有用。因此,如果您有兴趣成为Uber实验平台团队的数据科学家,请查看我们的职业问题开口。我们知道得越多,就越知道该做什么!
Eva Feng和Zhenyu Zhao是Uber的实验平台团队的数据科学家。






