Uber开源:赶上Felix Cheung,数据平台工程经理

0.
Uber开源:赶上Felix Cheung,数据平台工程经理

它可能似乎是对开源软件,具有公共可用性和透明的代码,可以提供私有企业的边缘。但这是提供的课程富利张是Uber的工程经理,他们将重大努力进入Apache软件基础。

富利张基于优步的西雅图工程办公室,Felix在我们的数据平台团队中工作,构建和维护处理的基础设施超过100个petabytes的数据该电源优步的服务在世界各地。Felix还为优步开源计划提供技术指导委员会,为开放的采购软件提供技术监督,并为开源软件项目提供贡献。开源项目,如Apache Hadoop,Apache Kafka和Apache Spark在此基础架构中发挥着重要作用。同样,优步拥有自己的贡献项目,例如Peloton马尔马雷,尽可能地使这一基础设施成为可能Apache Hudi(孵化),软件在优步开发并捐赠给Apache软件基础。

与Uber的工作一起,Felix在Apache Spark,Apache Zeppelin和Apache孵化器中提供了项目管理委员会,最近被选为Apache软件基础的成员。虽然这项工作中的一些与优步使用的技术重叠,但Felix贡献了他改善更广泛的软件项目的时间,示出了开源软件运动的精神。

我们与Felix坐下来了解他的工作和他的参与开放来源:

你在工程中的背景是什么,你的超级旅程是什么?

我一直在使用大数据开源项目约六年。当我通过分析我的前公司基础设施的日志和呼叫流程时,我的第一个冒险进入大数据。经过一点初步成功,我非常幸运能够使用最新的开源框架,如apache spark,有几个机会。多年来,我继续提高我的技能,并暴露于解决大数据问题的不同观点。

我的背景和历史与开放来源给了我更多的机会,我不能更感谢我如何能够沉浸自己并跟上技术的发展方式。最终,所有这些经历的总和都让我到了优步,我在哪里领导了西雅图的核心数据团队,我们的数据平台组织的一部分。

什么吸引了你开源工程?

我喜欢这个社区。我用Apache软件基金会(ASF)做了大部分工作,作为项目管理委员会成员Apache zeppelin.阿帕奇火花,和Apache孵化器,并在我有时间的时候帮助其他项目。特别是,我喜欢ASF价值观如何社区和协作。ASF人们说“社区过度守则”和“优点永远不会到期”,这反映了apache way.,因为它是亲切的。

当然,除了ASF之外还有许多开源社区。多年来,我已经参与了与其他开源群体不同程度的程度。例如,去年我加入了Kubernetes大数据sig

我喜欢看到驱动的人是如何在开源社区中的。从字面上看,他们花了几个小时的时间来帮助和改进其他工程师的项目。这些项目中的许多项目用于世界级的技术平台,社区成员正在以惊人的速度创新它们。

能够通过开源项目与世界各地的这些聪明,热情的人合作非常棒。

您目前如何参与开源工程的方式?

我们的数据平台使用许多ASF项目。在我的头顶,我可以想到我们使用的13个项目。我认为社区的纯粹规模及其广泛的贡献以及围绕发布的过程指南,为我们提供了一些我们作为技术公司的质量保证。

我们积极与社区聘用并合作分享思想和经验。我组织并参与了一些开源特别兴趣团体。我觉得这非常有价值,因为我们喜欢各种项目的创新步伐,我们还具有高度的价值可靠性,而优步呈现出巨大的挑战。

在我日常工作中,我很幸运能够带领一支才华横溢的工程师团队,他们喜欢使用ASF和其他开源项目的工作。他们对拥有开源界同样兴奋。

在个人方面,我与几个核心项目一起工作,现在主要是在帮助审查拉出请求,试图提供良好的反馈,并合并变更。我在Apache孵化器中导致了一些项目。我还组织了当地的聚会,有时会转到会议,以谈谈我的开源项目的经历。

您对优步开源社区的经历是什么?

老实说,这一直很棒。优步技术团队价值开源,是否涉及利用我们的技术堆栈的许多领域的现有项目,分享我们的经验,或开放我们自己的项目。一些很棒的例子是霍洛维多烙黑,而且,最近,马尔马雷Ludwigaresdb.,和Peloton。我们有超过200个项目开源GitHub.。我也想快速喊叫JVM-Profiler.,我的团队去年开放,并得到一个小但不断增长的社区的支持。哦,最后但并非最不重要的,哈迪,用于接受Apache孵化器。

去年,我们建立了一个官方优步开放源计划,现在已经进入了开源计划办公室。我与他们一起工作,组织聚会和活动,并在技术指导委员会上服务,讨论分享我们工作的最佳实践和议定书。

优步是如何用其大数据平台整合开源?

许多ASF项目对我们特别有用。在许多情况下,我们必须扩展这些项目以适应我们建筑的需求。在我们制作修复或改进的地方,我们尝试以不具体到优步的方式执行此操作,然后在内部验证时在这些变化上游。那是美丽的apache v2许可证- 我们可以对软件进行更改,以便为我们的需求工作,同时牢记我们对较大社区的责任。

我们还通过开源项目与其他公司珍惜合作。我发现在ASF GIT存储库或Github上的代码交谈使得与五年前的工程师进行协作。

您对开源项目的一些显着贡献有哪些?

我与LinkedIn的核心数据基础设施团队合作了几年。对于去年的大部分时间,我们以及Apache Spark社区的成员致力于提高Apache Spark的可扩展性和可靠性,包括在设计方案上工作分解数据随机播放。在过去的一年里,我们已经学到了很多东西。

我也一直与Uber的机器学习平台团队一起使用Anne Holler,提出Apache Spark的设计变更ML模型在线服务米开朗基罗,优步的机器学习平台,利用Apache Spark非常大量用于大规模分布式机器学习模型训练。

你真的有什么令人兴奋的项目吗?

XGBoost.真的很酷。它是一个非常受欢迎的机器学习库,用于优化分布式渐变升压。infoworld.包括它在它的2019年年度奖项技术,它是最受欢迎的非深度学习机学习库在今天的行业中。

除了ASF项目之外,XGBoost是我的团队投资的另一个项目。我的团队高级工程师南朱一直在该项目工作几年,并为Apache Spark上的分布式管道创造了支持。他是该项目的宣誓书。作为维护者,他也非常积极地与社区搞,帮助建立路线图和形状发布,同时与社区合作组织聚会,同时仍然有助于主要特征和改进。您可以看到他和他的队友在过去的两个版本中的贡献中的足迹,0.820.90

我们也为优步内部用例的框架进行了大量改进。通过XGBoost,优步推以理推动了大规模分布式培训的信封,以120亿条记录的行业领先范围,解锁分布式训练,具有15磅的数据,并使20层深树模型的培训。最近,我们设计并实现了一种新的分布式快速直方图算法,以显着加速XGBoost,添加了XGBoost支持多个验证数据集,并包括对最新版本的Spark

如果有助于开源软件项目并构建大数据基础架构的兴趣,考虑在我们的团队中的角色!!

引导照片Chad Peltolauns

评论