大数据档案|ti8 竞猜雷竞技appUber工程博客雷竞技到底好不好用

使用Apache Hudi在Uber建立大规模的交易数据湖

Nishith Agarwal- 2020年6月9日

Uber的Apache Hudi团队反映了开源项目的历史，因为它毕业于Apache Software Foundation下的高层项目。

通过统计建模监视数据质量

你们亨利·李- 2020年5月7日

Uber采用统计建模来发现数据异常并不断监视数据质量。

为及时的数据流处理设计准备生产的KAPPA架构

Amey Chaugule- 2020年1月23日

我们在Uber实施了Kappa体系结构，以大规模有效地回填流数据，以确保我们平台中的准确数据。

在Uber的Apache Pinot上的工程SQL支持

Haibo Wang- 2020年1月15日

我们对Apache Pinot进行了全面的SQL支持，以实现快速分析并报告汇总数据，从而改善了我们平台上的体验。

Uber在2019年的数据平台：将信息转换为情报

尼基尔·乔希（Nikhil Joshi）- 2019年12月17日

2019年，Uber的数据平台团队利用数据科学提高基础架构的效率，使我们能够计算最佳数据存储和硬件使用情况。

生产分布式XGBoost以训练在Uber的大型数据集的深树模型

约瑟夫·王- 2019年12月10日

我们在生产和扩展XGBoost时分享了技术挑战和经验教训，以在Uber训练分布式梯度增强算法。

建立更好的大数据架构：与Uber的Presto团队会面

韦恩·坎宁安- 2019年10月9日

Uber接受了高性能，分布式SQL查询引擎的Presto，并加入了Presto Foundation。与每天为Presto做出贡献和使用Presto的Uber工程师。

可搜索的地面真相：在自动驾驶汽车开发中查询不常见的情况

Khalid Ashmawy- 2019年10月7日

在开发Uber的自动驾驶汽车系统时，工程师找到了一种方法，可以在代表现实世界中的传感器数据中识别边缘案例方案。

Uber加入LF Presto基金会，以推进开源分析

Molly Vorwerck- 2019年9月23日

Uber很荣幸加入Linux Foundation主持的新计划Presto Foundation，以推进开源数据处理社区。

更少的更多：工程数据仓库效率具有简约设计

Ritesh Agrawal- 2019年8月14日

数据科学可帮助Uber确定应将数据库中的哪些表置于另一个来源，以最大程度地提高数据仓库的效率。

使Apache毫不费力地为所有Uber火花

Abhishek Modi- 2019年7月17日

Uber工程师创建了USCS，这是一种Spark-As-A-Service解决方案，可帮助管理整个大型组织的Apache Spark Jobs。

通过全局索引在Uber上的大型Apache Hadoop表的全局索引进行一致的数据分区

Nishith Agarwal- 2019年4月23日

在Uber的100多个PBACHEDAPACH HADOOP DATA LAKE中执行单个记录的更新，需要构建全球索引，该组件是管理数据簿记和查找的组件。

Uber将开源大数据库Hudi提交给Apache Software Foundation

Brian Hsieh- 2019年4月19日

我们将Hudi提交给Apache孵化器，以确保该项目在Apache Software Foundation下的长期增长和可持续性。

Uber案例研究：为Apache Spark选择合适的HDFS文件格式...

斯科特·肖特- 2019年3月21日

在选择哪种HDFS文件格式最适合与Apache Spark一起使用时，Uber的地图收集和报告（MAPCARS）团队会共享最佳实践。

在Uber的数据科学解决大数据挑战

阿图尔·古普特（Atul Gupte）- 2019年3月20日

Uber的工程师和数据科学家如何共同提出一种部分复制Vertica群集以更好地扩展我们的数据量的方法。

通过数据工作流程管理可访问的机器学习

姜张- 2019年3月18日

Uber工程师提供了两个常见的用例，以表明我们如何在数据工作流引擎中编排机器学习模型培训。

DBEVENTS：一个标准化框架，可有效将数据摄入Uber的Apache Hadoop数据湖

Nishith Agarwal- 2019年3月14日

Uber工程师讨论了DBEVENTS的开发，这是一种用于高数据质量和新鲜度的变更数据捕获系统，能够在全球范围内运行。

评论年度：2018年Uber工程博客的亮点ti8 竞猜雷竞技app雷竞技到底好不好用

Molly Vorwerck- 2018年12月20日

我们的编辑聚焦在今年最受欢迎的文章中，从我们的大数据平台的概述到工程师移民旅程的第一人称帐户。

实时会议Uber旅行

Amey Chaugule- 2018年12月4日

Uber的许多数据流都需要将与特定任务相关的数据（例如骑手旅行）建模到状态机器中。州机器使工程师只专注于成功完成旅行所需的事件。

Peloton：Uber的统一资源调度程序，用于不同的集群工作负载

最小CAI- 2018年10月30日

Uber开发了Peloton，以帮助我们平衡资源使用，弹性共享资源并计划未来的容量需求。

1 2 第1页共2页

流行文章

见Michelangelo：Uber的机器学习平台

2017年9月5日

引入面向域的微服务体系结构

2020年7月23日

Uber的大数据平台：100多个pb具有微小延迟

2018年10月17日

为什么Uber Engineering从Postgres切换到MySQL

2016年7月26日

H3：Uber的六角形层次结构空间索引

2018年6月27日

引入Ludwig，一种无代码的深度学习工具箱

2019年2月11日

Uber工程技术堆栈，第一部分：基金会

2016年7月19日

介绍Aresdb：Uber的GPU供电开源，实时分析引擎

2019年1月29日

Uber的预测：介绍

2018年9月6日

引入基本网络，Uber的新设计系统，用于在...中构建网站

2019年4月16日

标签：大数据

流行文章