大规模数据科学:与Uber的Fran Bell的对话

0
大规模数据科学:与Uber的Fran Bell的对话

弗兰贝尔一直是个科学家;理论,建模和测试世界如何运作。作为一个永远充满好奇心的孩子,她对自然世界着迷,钻研生物和化学书籍,但从不满足于仅仅知道;她也想把她的知识运用到实践中去。因此,她将自己对物理科学的热爱转化为量子化学学位,后来在Uber从事数据科学工作。

虽然优步的数据驱动研究方法和前所未有的规模吸引了她,但弗兰表示,她最大的成雷竞技是骗人的就感来自于作为一名领导者。作为Uber数据科学平台团队的领导者,Fran充分发挥了她对应用的热情机器学习从战略上确定哪些产品和服务将通过人工智能得到改进。从构建解决方案检测系统中断机器学习模型弗兰的专家团队负责解决优步一些最重要的技术挑战。Fran还积极参与在Uber建立数据科学社区,并共同领导科学身份,这是一项旨在加强Uber(数据)科学社区并提高其外部知名度的倡议,例如通过科学座谈会。

我们和弗兰坐下来讨论了她一生对科学的热爱,这是她的第一个大项目以及她对机器学习未来的展望:

你是什么时候开始对科学感兴趣的?

我小时候在奥地利第一次开始阅读时,有两本书让我印象深刻。其中一本是生物学书,描述了鸟类飞行的基本原理以及它们的空气动力学原理。第二篇是关于日常科技是如何运作的。这本书基本上是把洗衣机之类的东西拆开,并解释了所有不同部件是如何一起工作的。生物学和技术特别有趣,因为我想知道一切事物是如何以及为什么工作的。

当我上高中时,我发现化学奥林匹克竞赛,这是我真正投入的东西。我参加了这些比赛,并获得了全国和随后的国际比赛的参赛资格。正是这种教育让我爱上了化学、物理和数学。

你在加州大学伯克利分校学什么?

我在加州大学伯克利分校攻读量子化学博士学位。量子化学基本上是应用数学和高性能计算之间的交叉,然后应用于生物学、化学和物理学等领域。我所在的雷竞技是骗人的研究小组开发了非常精确,计算效率很高的算法。虽然我们可能已经在纸上知道一个给定问题的精确解,但这些计算在计算上是如此缓慢,以至于在地球的生命周期内都无法完成。我们发明了更快速的方法来接近答案。这一切都是关于平衡精度和计算速度。

具体来说,我的实验室将这些方法应用于非硅基太阳能电池,这种电池已经存在了几十年,但人们对它知之甚少。这些有机分子在实验室情况下已经被证明是硅基太阳能电池效率的两倍。它们非常灵活,很容易生产,但没有人真正了解它们的潜在机制是什么。通过开发电子结构理论的新方法,我们能够解开太阳能电池的工作原理;这为优化非硅基太阳能电池的性能和成本铺平了道路。

你是什么时候,为什么决定加入Uber的?

我非常着迷的一件事是Uber产品本身。在我加入这家公司之前,我使用过这款应用,我觉得它很棒,因为你可以看到地图上的汽车向你驶来,你不必担心是否有人真的会来接你,把你带到一个特定的地点。

促使我加入Uber的第二个因素是,我的工作可能对现实世界产生的直接影响,这在学术界被大大推迟了。在科技行业,随着跨职能团队团结在一起,将产品或流程推向终点线,周转速度会更快。此外,Uber还大规模、实时地解决了一些世界上最具挑战性的数据科学问题。这对我来说非常非常有吸引力,四年后,我仍然感到超级兴奋,每天起床,和我出色的队友一起研究这些问题。

从在学术环境中学习量子化学到在技术公司中实践数据科学,这是一个很大的跳跃吗?

这看起来并不是什么大的飞跃。在伯克利获得博士学位后,我在加州理工学院(California Institute of Technology)攻读了一个相关领域的博士后,即近似量子动力学。在我的博士后期间,我加入了一个实验室,该实验室正在开发新的数学模型,应用于酶促反应等,特别关注随着光进化的系统,比如光合作用。其中许多都具有与统计建模、机器学习和数据科学一般应用的相同的方法。所以很明显,高级统计方法或高维优化问题将是其中的一部分。当你进入机器学习的世界时,这些方法有非常不同的名称,但基础数学非常相似,有时甚至完全相同。

你在优步的第一个主要项目是什么?

我于2014年底加入Uber,成为我们基础设施团队的第一位数据科学家。我的团队最初要解决的问题是开发一种工具,可以检测何时发生系统中断,我们称之为这个项目阿哥斯.当用户无法打开应用程序、请求旅行或在平台上注册时,Argos会通知我们,这让我们有能力确保我们的服务一直正常运行。这里有趣的部分是大规模停机检测实际上仍然是一个开放的研究问题。雷竞技是骗人的在很短的时间内,我们就在这个领域取得了进展,并将一些东西投入生产。现在,我们有一个完整的团队正在研究这个问题,并且仍然在突破边界,积极地在这个领域发表文章,参加会议。我们也有一些专利。

在优步工作最让你惊讶的是什么?

我认为Uber非常专注于数据科学,这非常令人惊讶;我的意思是,我们聪明地使用数据为用户创造更好的体验,大规模地解决问题。

事实上,数据科学在Uber非常重要,Uber的前十名员工中就有一位是数据科学家。现在,看到优步有这么多数据科学家和数据分析师,真是太棒了。我们专注于构建这个团队,这确实体现了我们对机器学习和数据科学的承诺,但我们的数据驱动还不止于此;它渗透到公司的每个部分,从工程到产品管理和设计。这种将数据视为基本事实的文化和心态真的很吸引我。

另一件令人惊讶的事情是,在我们的领域还有很多事情没有解决,这些事情也是Uber独有的,比如时空预测。将这种快节奏的环境与实际提出创新解决方案的需求结合起来是非常吸引人的。

你领导Uber的数据科学平台团队。你的团队负责什么?为什么他们的工作对Uber的业务至关重要?

Uber的数据科学平台项目有两个组成部分。一个是我们的专家组。顾名思义,这个组织拥有非常密集的数据科学专家。这些团队的例子包括预测、异常检测、实验、对话式AI、计算机视觉和行为科学数据科学团队。这些专家利用他们深厚的数据科学领域专业知识,并与工程和产品合作,构建可供整个公司的团队使用的工具和平台,无论他们的技能水平如何。例如,预测平台推动了市场营销、硬件容量规划、运营的预测,团队与我们的财务和市场团队合作。这些工具使我们的专家可以很容易地将他们的专业知识扩展到公司内的任何人。我的团队发现这非常令人兴奋,我们基本上就像这些忍者,我们可以繁殖自己,并在整个公司传播我们的专业知识。

我参与的其他团队是目标解决方案团队。他们负责利用数据科学为特定的产品领域(如客户支持和增长)构建可扩展的工具和平台。

在Uber做数据科学最具挑战性的是什么?

从技术角度来看,我想说的是,我们仍然是一家非常年轻的公司,我们显然已经经历了——而且仍在经历——高速增长。在数据科学领域,这种增长实际上变得非常有趣,同时也具有挑战性。

举个具体的例子,我的团队负责进行Uber的硬件容量规划,特别是我们平台上的高流量活动,比如万圣节、跨年等重大活动。然而,在确定特定日期的需求时,我们还需要考虑许多其他变量,包括星期几以及自去年万圣节以来的用户增长情况。我们有时可以利用的数据很少。一开始,我们没有历史数据来比较这些即将到来的假期和事件,因为优步在上周的这一天没有营业;加上我们在现有市场的快速增长和向新市场的扩张,这使得预测旅行需求变得非常困难。

除此之外,我们还解决了很多开放式的问题,这些问题还没有在这种规模上得到解决,如果它们已经被研究过的话,无论是在学术界还是在私营部门。例如,实时异常检测在Uber这样规模的平台上是前所未有的。在这些领域,目前文献很少,还有很大的改进空间,优步有很好的机会利用我们的资源和专业知识来产生持久的影响。

你认为你的工作中最有价值的是什么?

关于我的工作,我最喜欢的是帮助人们成长。我真的很喜欢个人贡献的工作,但有机会帮助我的团队成员在他们的角色中表现出色,这是让我每天来工作的兴奋之处。管理团队还能让我深入研究机器学习和优步科学身份的战略层面,评估这些不同的组成部分如何协同工作。

机器学习的未来让你兴奋的是什么?

我相信我们只是刚刚开始触及数据科学所能实现的表面。在其他领域中,我对自然语言处理和对话式人工智能的发展尤其感到兴奋。可以翻译和理解人类语言的机器学习模型已经取得了很大的进步。在优步,我们有一个自然语言处理团队建立一个优步范围的平台,让客户迷恋代理更容易在我们的绿光中心和应用程序地址客户支持票,从而促进改善我们的用户和员工的体验。当然,机器学习将发挥重要作用的其他领域与我们在自动驾驶汽车方面的工作有关。然而,我认为机器学习的圣杯将是用越来越少的数据训练出精确的模型,就像人类进化一样。这仍然是一个开放的研究领域,对我来说非常有趣雷竞技是骗人的。

对于那些正在争论他们将在私营部门还是学术界产生最大影响的数据科学家,你有什么建议?

我认为在工业界和学术界都有很多有趣的研究领域,而如今,它们的重叠越来越多。雷竞技是骗人的将机器学习、人工智能和其他领域引入私营部门对这项研究的推进非常重要,这方面的最新发展确实解锁了许多商业用例。雷竞技是骗人的与此同时,许多大公司也开始投资于自己的研究分支机构。雷竞技是骗人的例如,我们有人工智能实验室优步的应用机器学习和研究部门来自工程学院。雷竞技是骗人的因此,即使在行业内,也有机会进行长期的研究工作,其影响超出了单个公司的范围。雷竞技是骗人的

私营部门和学术界的合作比10年前更加紧密。我认为原因是数据科学本身仍然是一个非常新的领域。因此,人们已经发现了很多机会,可以利用彼此的方法和技术。另一件令人兴奋的事情是,私营部门通常比学术界拥有更多的数据。事实上,优步有很多终身教授正在休年假或暑期访问,他们中的一些人甚至选择全职工作,因为他们发现问题空间非常令人兴奋,我们拥有的数据对他们的工作非常有用。

是什么驱使你在优步工作之外?

我热爱的事情有很多。我喜欢拓展我的技术视野。我喜欢学习的一些内容显然与我正在做的工作有关,但我也非常喜欢阅读机器学习中不同领域的论文,听有趣会议上的技术演讲录音。我总是努力挑战自己,挑战自己的极限,所以在优步和那些在自己的领域非常深入的优秀人士一起工作真的给了我这个机会。

如果你有兴趣研究超出规模限制的数据科学问题,可以考虑申请一个角色Uber数据科学团队的一员!

订阅我们的通讯以跟上优步工程公司的最新创新。

评论

没有帖子显示