跳到页脚

标签:大数据

使用Apache Hudi在Uber建立大规模的交易数据湖

Uber的Apache Hudi团队反映了开源项目的历史,因为它毕业于Apache Software Foundation下的高层项目。
带有24只猫的图像除了一个红色

通过统计建模监视数据质量

Uber采用统计建模来发现数据异常并不断监视数据质量。
高架高速公路

为及时的数据流处理设计准备生产的KAPPA架构

我们在Uber实施了Kappa体系结构,以大规模有效地回填流数据,以确保我们平台中的准确数据。

在Uber的Apache Pinot上的工程SQL支持

我们对Apache Pinot进行了全面的SQL支持,以实现快速分析并报告汇总数据,从而改善了我们平台上的体验。

Uber在2019年的数据平台:将信息转换为情报

2019年,Uber的数据平台团队利用数据科学提高基础架构的效率,使我们能够计算最佳数据存储和硬件使用情况。

生产分布式XGBoost以训练在Uber的大型数据集的深树模型

我们在生产和扩展XGBoost时分享了技术挑战和经验教训,以在Uber训练分布式梯度增强算法。

建立更好的大数据架构:与Uber的Presto团队会面

Uber接受了高性能,分布式SQL查询引擎的Presto,并加入了Presto Foundation。与每天为Presto做出贡献和使用Presto的Uber工程师。
行人密度图

可搜索的地面真相:在自动驾驶汽车开发中查询不常见的情况

在开发Uber的自动驾驶汽车系统时,工程师找到了一种方法,可以在代表现实世界中的传感器数据中识别边缘案例方案。

Uber加入LF Presto基金会,以推进开源分析

Uber很荣幸加入Linux Foundation主持的新计划Presto Foundation,以推进开源数据处理社区。
字云

更少的更多:工程数据仓库效率具有简约设计

数据科学可帮助Uber确定应将数据库中的哪些表置于另一个来源,以最大程度地提高数据仓库的效率。
中国水龙照片由Inspiredimages/Pixabay

使Apache毫不费力地为所有Uber火花

Uber工程师创建了USCS,这是一种Spark-As-A-Service解决方案,可帮助管理整个大型组织的Apache Spark Jobs。
大象

通过全局索引在Uber上的大型Apache Hadoop表的全局索引进行一致的数据分区

在Uber的100多个PBACHEDAPACH HADOOP DATA LAKE中执行单个记录的更新,需要构建全球索引,该组件是管理数据簿记和查找的组件。

Uber将开源大数据库Hudi提交给Apache Software Foundation

我们将Hudi提交给Apache孵化器,以确保该项目在Apache Software Foundation下的长期增长和可持续性。

Uber案例​​研究:为Apache Spark选择合适的HDFS文件格式...

在选择哪种HDFS文件格式最适合与Apache Spark一起使用时,Uber的地图收集和报告(MAPCARS)团队会共享最佳实践。
服务器架

在Uber的数据科学解决大数据挑战

Uber的工程师和数据科学家如何共同提出一种部分复制Vertica群集以更好地扩展我们的数据量的方法。
复杂的高速公路交汇处

通过数据工作流程管理可访问的机器学习

Uber工程师提供了两个常见的用例,以表明我们如何在数据工作流引擎中编排机器学习模型培训。
大象轮廓

DBEVENTS:一个标准化框架,可有效将数据摄入Uber的Apache Hadoop数据湖

Uber工程师讨论了DBEVENTS的开发,这是一种用于高数据质量和新鲜度的变更数据捕获系统,能够在全球范围内运行。

评论年度:2018年Uber工程博客的亮点ti8 竞猜雷竞技app雷竞技到底好不好用

我们的编辑聚焦在今年最受欢迎的文章中,从我们的大数据平台的概述到工程师移民旅程的第一人称帐户。
鸟类的图像

实时会议Uber旅行

Uber的许多数据流都需要将与特定任务相关的数据(例如骑手旅行)建模到状态机器中。州机器使工程师只专注于成功完成旅行所需的事件。

Peloton:Uber的统一资源调度程序,用于不同的集群工作负载

Uber开发了Peloton,以帮助我们平衡资源使用,弹性共享资源并计划未来的容量需求。

流行文章