优步开放来源：赶上Felix Cheung，数据平台工程经理|ti8 竞猜雷竞技app优步工程博客雷竞技到底好不好用

Wayne Cunningham.

2019年5月22日

鸣叫

分享43.

投票

reddit.

whatsapp.

43.分享

它可能似乎是对开源软件，具有公共可用性和透明的代码，可以提供私有企业的边缘。但这是提供的课程富利张是Uber的工程经理，他们将重大努力进入Apache软件基础。

基于优步的西雅图工程办公室，Felix在我们的数据平台团队中工作，构建和维护处理的基础设施超过100个petabytes的数据该电源优步的服务在世界各地。Felix还为优步开源计划提供技术指导委员会，为开放的采购软件提供技术监督，并为开源软件项目提供贡献。开源项目，如Apache Hadoop，Apache Kafka和Apache Spark在此基础架构中发挥着重要作用。同样，优步拥有自己的贡献项目，例如Peloton和马尔马雷，尽可能地使这一基础设施成为可能Apache Hudi（孵化），软件在优步开发并捐赠给Apache软件基础。

与Uber的工作一起，Felix在Apache Spark，Apache Zeppelin和Apache孵化器中提供了项目管理委员会，最近被选为Apache软件基础的成员。虽然这项工作中的一些与优步使用的技术重叠，但Felix贡献了他改善更广泛的软件项目的时间，示出了开源软件运动的精神。

我们与Felix坐下来了解他的工作和他的参与开放来源：

你在工程中的背景是什么，你的超级旅程是什么？

我一直在使用大数据开源项目约六年。当我通过分析我的前公司基础设施的日志和呼叫流程时，我的第一个冒险进入大数据。经过一点初步成功，我非常幸运能够使用最新的开源框架，如apache spark，有几个机会。多年来，我继续提高我的技能，并暴露于解决大数据问题的不同观点。

我的背景和历史与开放来源给了我更多的机会，我不能更感谢我如何能够沉浸自己并跟上技术的发展方式。最终，所有这些经历的总和都让我到了优步，我在哪里领导了西雅图的核心数据团队，我们的数据平台组织的一部分。

什么吸引了你开源工程？

我喜欢这个社区。我用Apache软件基金会（ASF）做了大部分工作，作为项目管理委员会成员Apache zeppelin.那阿帕奇火花，和Apache孵化器，并在我有时间的时候帮助其他项目。特别是，我喜欢ASF价值观如何社区和协作。ASF人们说“社区过度守则”和“优点永远不会到期”，这反映了apache way.，因为它是亲切的。

当然，除了ASF之外还有许多开源社区。多年来，我已经参与了与其他开源群体不同程度的程度。例如，去年我加入了Kubernetes大数据sig。

我喜欢看到驱动的人是如何在开源社区中的。从字面上看，他们花了几个小时的时间来帮助和改进其他工程师的项目。这些项目中的许多项目用于世界级的技术平台，社区成员正在以惊人的速度创新它们。

能够通过开源项目与世界各地的这些聪明，热情的人合作非常棒。

您目前如何参与开源工程的方式？

我们的数据平台使用许多ASF项目。在我的头顶，我可以想到我们使用的13个项目。我认为社区的纯粹规模及其广泛的贡献以及围绕发布的过程指南，为我们提供了一些我们作为技术公司的质量保证。

我们积极与社区聘用并合作分享思想和经验。我组织并参与了一些开源特别兴趣团体。我觉得这非常有价值，因为我们喜欢各种项目的创新步伐，我们还具有高度的价值可靠性，而优步呈现出巨大的挑战。

在我日常工作中，我很幸运能够带领一支才华横溢的工程师团队，他们喜欢使用ASF和其他开源项目的工作。他们对拥有开源界同样兴奋。

在个人方面，我与几个核心项目一起工作，现在主要是在帮助审查拉出请求，试图提供良好的反馈，并合并变更。我在Apache孵化器中导致了一些项目。我还组织了当地的聚会，有时会转到会议，以谈谈我的开源项目的经历。

您对优步开源社区的经历是什么？

老实说，这一直很棒。优步技术团队价值开源，是否涉及利用我们的技术堆栈的许多领域的现有项目，分享我们的经验，或开放我们自己的项目。一些很棒的例子是霍洛维多那烙黑，而且，最近，马尔马雷那Ludwig那aresdb.，和Peloton。我们有超过200个项目开源GitHub.。我也想快速喊叫JVM-Profiler.，我的团队去年开放，并得到一个小但不断增长的社区的支持。哦，最后但并非最不重要的，哈迪，用于接受Apache孵化器。

去年，我们建立了一个官方优步开放源计划，现在已经进入了开源计划办公室。我与他们一起工作，组织聚会和活动，并在技术指导委员会上服务，讨论分享我们工作的最佳实践和议定书。

优步是如何用其大数据平台整合开源？

许多ASF项目对我们特别有用。在许多情况下，我们必须扩展这些项目以适应我们建筑的需求。在我们制作修复或改进的地方，我们尝试以不具体到优步的方式执行此操作，然后在内部验证时在这些变化上游。那是美丽的apache v2许可证- 我们可以对软件进行更改，以便为我们的需求工作，同时牢记我们对较大社区的责任。

我们还通过开源项目与其他公司珍惜合作。我发现在ASF GIT存储库或Github上的代码交谈使得与五年前的工程师进行协作。

您对开源项目的一些显着贡献有哪些？

我与LinkedIn的核心数据基础设施团队合作了几年。对于去年的大部分时间，我们以及Apache Spark社区的成员致力于提高Apache Spark的可扩展性和可靠性，包括在设计方案上工作分解数据随机播放。在过去的一年里，我们已经学到了很多东西。

我也一直与Uber的机器学习平台团队一起使用Anne Holler，提出Apache Spark的设计变更ML模型在线服务。米开朗基罗，优步的机器学习平台，利用Apache Spark非常大量用于大规模分布式机器学习模型训练。

你真的有什么令人兴奋的项目吗？

XGBoost.真的很酷。它是一个非常受欢迎的机器学习库，用于优化分布式渐变升压。infoworld.包括它在它的2019年年度奖项技术，它是最受欢迎的非深度学习机学习库在今天的行业中。

除了ASF项目之外，XGBoost是我的团队投资的另一个项目。我的团队高级工程师南朱一直在该项目工作几年，并为Apache Spark上的分布式管道创造了支持。他是该项目的宣誓书。作为维护者，他也非常积极地与社区搞，帮助建立路线图和形状发布，同时与社区合作组织聚会，同时仍然有助于主要特征和改进。您可以看到他和他的队友在过去的两个版本中的贡献中的足迹，0.82和0.90。

我们也为优步内部用例的框架进行了大量改进。通过XGBoost，优步推以理推动了大规模分布式培训的信封，以120亿条记录的行业领先范围，解锁分布式训练，具有15磅的数据，并使20层深树模型的培训。最近，我们设计并实现了一种新的分布式快速直方图算法，以显着加速XGBoost，添加了XGBoost支持多个验证数据集，并包括对最新版本的Spark。

如果有助于开源软件项目并构建大数据基础架构的兴趣，考虑在我们的团队中的角色！！

引导照片Chad Peltola上uns。

鸣叫

分享43.

投票

reddit.

whatsapp.

43.分享

Uber开源：赶上Felix Cheung，数据平台工程经理

你在工程中的背景是什么，你的超级旅程是什么？

什么吸引了你开源工程？

您目前如何参与开源工程的方式？

您对优步开源社区的经历是什么？

优步是如何用其大数据平台整合开源？

您对开源项目的一些显着贡献有哪些？

你真的有什么令人兴奋的项目吗？

流行文章

遇见Michelangelo：优步的机器学习平台

引入面向域的微服务架构

优步的大数据平台：100多个Petabytes，分钟延迟

为什么优步工程从Postgres切换到MySQL

H3：优步的六边形等空间索引

介绍Ludwig，一种免费的深度学习工具箱

优步工程技术堆栈，第一部分：基础

介绍ARESDB：优步的GPU动力开源，实时分析引擎

Uber预测：介绍

介绍基础网络，优步的建立网站的新设计系统......

ETA电话主页：Uber工程师如何高效

宣布Uber Engineering的开源网站

遇见Michelangelo：优步的机器学习平台