为什么理财是令人兴奋的——至少对数据科学家来说

0
为什么理财是令人兴奋的——至少对数据科学家来说

对许多人来说,财务规划似乎并不是一条令人兴奋的职业道路,因为它的重点是数字运算和会计。试试搜索一下会计的刻板印象你会发现许多为这个职业辩护的文章,这是一个明确的迹象,表明从事金融工作的人感到被误解了。

把我算在会计这一边,因为作为一名数据科学家,我发现优步的财务规划非常令人兴奋。

财务规划:一个经典的公司实践……

在优步,像大多数公司一样,我们在今年年底就会规划我们明年的整体财务状况,包括如何花费资本来发展我们的业务。这个计划的目标是制定一个明智的预算,并为诸如总预订量等关键指标设定目标。

财务规划的一个要素是决定在特定城市的营销支出,并根据预算预测应该加入我们平台的新用户数量。虽然编译数字来进行预测并确定预算的任务似乎很无聊,但对于数据科学家来说,这确实涉及到一个充满挑战、建模、创造力和兴奋的世界。

在一个前一篇文章,我们解释了定量预测可以分为三类:基于模型的方法、基于统计的方法和基于机器学习的方法。第一种方法,即基于模型的预测,通常适用于整个财务规划。我们知道我们用例的基本机制:鼓励新乘客使用我们的平台创造需求,这意味着我们的司机合作伙伴有更多的机会和收入。同样,有更多的司机加入我们的平台,意味着乘客的接车时间更快。我们可以创建一个模型,显示在一个城市投入一定的营销费用将如何鼓励特定数量的新用户。

然而,如果我们把我们的财务规划分解成更小的部分,我们就会意识到我们也可以应用统计方法和机器学习方法来进行预测和解决问题。看看如何使用这些其他方法需要想象力,这就是我作为数据科学家的角色令人兴奋的地方。

这为数据科学建模打开了无限的大门

在开始概述我们用于财务规划的模型之前,让我们考虑一下数据科学家面临的问题。最基本的问题可以归结为:优步应该在哪里以及如何投资,以服务于包括乘客和司机合作伙伴在内的大多数用户?

现在,更让我印象深刻的是,在2018年,Uber的拼车业务在数百个城市运营,数百万乘客和司机活跃在Uber的平台上。这个规模代表了一个真正令人兴奋的挑战!

考虑到这一目标的综合力量和我们的规模,我们需要扩大我们的项目范围。在优步的案例中,战略财务团队定义了问题,我们必须首先与我们的跨职能合作伙伴(包括区域财务和城市运营团队的负责人)就我们所需的一切进行协调。例如,这些团队会告诉我们,他们需要知道新骑手、新司机合作伙伴的数量,以及根据每个城市的营销预算,我们可以预期的行程。我们可以用一个简化的模式描述这一点,如下面的图1所示。使用这个流程,我们可以通过减去上游投资($R和$D)。

显示骑手和司机注册的模型流程
图1:Uber的战略财务团队提供了我们的数据科学家用来预测财务规划的指标,其中SUD/R是司机/乘客注册人数,FTD/R是首次司机/乘客。

我想强调的是,问题的规模和我们采取的方法,基于杠杆的科学指标建模,推动了我们行业财务规划的极限。这是一项真正的创新,而Uber的业务是一个多边市场,一切都需要保持平衡,这一事实增加了复杂性。

作为Uber的数据科学家,我还与所有利益相关者和合作伙伴合作,比如大数据、后台和前端工程师,以及其他数据科学团队财务规划.不要太深入细节,但让我指出一个数字:在我们2019年的财务规划中,Uber的数据科学家使用了数百万个历史数据点来训练他们的模型。

一旦每个团队结盟,数据科学家的真正乐趣就开始了。我们的大部分工作包括开发和实现模型来解决给定的问题,这是你真正可以深入学习核心数据科学技能的地方。

贝叶斯结构时间序列(BSTS)

我们流程的最上游部分(如图1所示)模拟了司机/乘客注册(SUs)的数量,换句话说,是首次在Uber应用程序上注册的用户数量。

下图2显示为散点图,考虑到我们在营销上花了多少钱,我们可以看到SUs的例子。我们发现,通常情况下,我们投入的钱越多,注册用户就越多。

图表显示了花费与注册人数的对比
图2:从这些图表可以看出,营销支出会影响乘客和司机合作伙伴的注册。

为了了解营销支出如何影响SUs,我们提出了一个非常完善的模型贝叶斯结构时间序列的想法。该模型根据营销支出、假期和其他因素预测每个城市的SUs趋势,并附上以下资料特性

  • 营销支出的影响紧随收益递减而来。
  • 该模型控制趋势。
  • 该模型控制假日。
  • 应用贝叶斯收缩法对数据稀疏的城市进行合理估计。

除了一个简单的多项式插值,建立这个模型需要计量经济学技能,这对数据科学家来说非常有趣。

简单但有效的转换模式为首次用户

对于这个项目的子组件,简单、经典的统计模型可能非常有用。

为了从su中获得首次出行的用户(FTs),我们发现最有效的模型是一个简单的转换曲线。在一周内,第一次使用Uber出行的用户数量是同一周注册用户的一部分,加上前一周注册用户的一部分,再加上前一周注册用户的一部分,如下图3所示:

按周显示注册队列的柱状图
图3:该图显示了一周的ft总数;每种颜色都是一组转换后的su。例如,如果我们看一下黄色队列,我们可以看到最大数量的转换,注册后使用服务的司机,在他们最初的注册周。在随后的几周内,该队列的ft以可预测的方式减少。

使用这个模型,我们为每个城市定制转换曲线,并允许队列转化率随时间变化。这种模式解释了随着时间的推移,用户转化率下降的城市,这是我们在大多数拥有成熟用户基础的美国城市中看到的情况。我们还为司机和乘客使用了不同的注册和首次出行之间的时间差

我们通过考虑从我们的行程数据中获得总预订(如图1所示,在流程的最后描述)每程票价每趟服务费,及其他每次旅行的货币构成作为单变量乘以级数的集合。在这种情况下,我们应用经典的统计方法,这足以做出相当有力的预测。这些方法都考虑到了趋势和季节性(其中不包括基本的家庭平滑技术),而不需要做更多的工作来进一步完善它们。

一组图表显示不同城市的历史和预测
图4:这组图显示了我们如何预测不同城市每次旅行的货币成分,其中蓝色显示历史数据,红色显示我们的预测。

开发自己的方法

回顾图1中的流程,第一次骑行者/司机合作伙伴(FTr, FTd)到出行部分(活跃用户作为中间输出)有点棘手。根据下面图5所示的历史数据,我们如何对这部分进行建模?

图表显示了基于月份的首次用户数量
图5:这些图表显示了月FT演变的样本数据R英国《金融时报》,D,以及相同地理级别的行程。

例如,我们可以看到,在第6个月,FTs和trip之间呈负相关:前者与第5个月的数字相比减少了,但后者增加了。如果我们使用一个简单的统计模型,用ft作为回归量或外生变量来建模和预测行程,比如ARIMAX,结果可能是不准确的。

为了理解其中的原因,让我们考虑一个简单的例子:为了纪念当地的一个节日,优步决定暂时在一个特定的城市花更多的钱做广告。然而,一场巨大的冬季风暴来袭,导致居民限制出行。虽然广告可能会吸引新的注册用户,但我们真的看到更多的人去旅行了吗?可能不会。天气可能会对现有乘客的参与度产生负面影响,减少整体出行次数。

最后,数据显示,我们增加了营销支出,这导致了ft的增加,但却导致了整体旅行次数的停滞甚至下降。以ft为外生变量的起下钻模型在此数据上进行校准,可以预测ft的增加导致起下钻次数减少。听起来不太好,对吧?

一个明显的解决方案是加入一个模型中没有考虑到的变量:天气非常糟糕的事实可以用作外生变量。不幸的是,在我们进行财务规划时,恶劣天气是无法预测的。此外,天气只是外生变量的一个例子,如果我们想使用基于这一原则的模型,我们就需要将它们全部列出,这是不可能的。

我们的解决方案是建立一个对业务和计量经济学指标有更深入理解的模型。我们将行程分解为三个部分,以反映产生行程的实际机制。在给定的一个月里,我们有:

  • 罚球,表示首次使用的用户数量
  • 活性物/罚球,表示活跃用户数量(至少进行过一次旅行的用户)除以首次使用的用户数量,这个概念接近于我们的用户留存率
  • 旅行/活性物,代表出行次数除以活跃用户数量,即我们用户的平均参与度

每月的旅行次数就是这三者的乘积:

显示行程= FTs x主动/FTs x行程/主动的方程

通过对活动/FTs和行程/活动进行建模,我们最终得到了一个行程模型,该模型将FTs作为输入,也可以将活动作为中间输出。在实践中,这个方程并不是那么简单,我们在成功建模之前做了几次尝试。例如,我们可以独立地对活动/FTs和行程/活动进行建模吗?模型的表现如何?我们最终决定考虑用户第一次出行月份定义的队列,并以FTs、active /FTs和trips / active的行程分解逻辑构建了一个队列模型。

显示出行次数和乘客滞留率的图表
图6:我们的队列模型预测了从FTs出发的行程。

值得注意的是,活跃/交易次数和旅行/活跃次数并不只是随机的数学比率,它们是代表前者用户留存率和后者用户粘性的关键指标。这些对我们在优步内部的业务合作伙伴来说都是很有价值的指标我们正在考虑让某些营销投资来调节它们。

我的团队从头构建了这个旅行模型,它是为我们的用例量身定制的。创建它,包括用R和Python编写代码,是一个真正的挑战,但也非常有趣。

明确而具体的界限的重要性

开发上述模型只是我们在优步财务规划中使用的预测技术的一部分。工作不会就此结束;我们还面临着仅靠经典建模是不够的其他挑战。

人工智能实验室优步的战略财务团队正在探索优化优步财务规划的新技术。例如,我们使用概率方法来开发基于的行程预测高斯过程技术。我们还一直在开发一个用户级模型,以捕捉激励措施对司机群体的影响。我们使用零膨胀泊松分布来模拟每个司机的出行次数的概率。我们用长短期记忆网络(LSTM)是一种特殊的循环神经网络(RNN)。

我的团队并不是Uber唯一一个将数据科学应用于具体业务问题的团队。这种利用数据科学进行智能决策的哲学是优步文化的一部分。我们用它来确保安全,提高客户体验防止欺诈行为等等。

具有明确范围和界限的项目——即使是那些一开始看起来令人生畏的项目——可以让数据科学家充分发挥他们的才能和想象力来探索新技术。

有兴趣探索您的数据科学技能如何解决具有挑战性的问题吗?申请加入我们的团队吧

评论