优步向Apache软件基金会提交了开源大数据库Hudi

0
优步向Apache软件基金会提交了开源大数据库Hudi

快速管理和访问pb级数据的能力对于整个数据生态系统的可伸缩增长至关重要。尽管如此,这还是需要规模和速度并不总是天生适合到现有的批处理和流系统架构。

Hudi于2016年开发,代号为“Hoodie”,旨在解决摄食和ETL管道的低效率问题,这需要优步的upsert和增量消费原语大数据的生态系统。为了与更广泛的大数据社区分享这些好处,优步在2017年开放了信息源Hudi。

2019年1月,我们提交了HudiApache孵化器在Apache软件基金会的开放治理和指导下,进一步推进我们的开源承诺,并确保Apache Hudi的长期可持续性和增长。

“优步使用了这么多优秀的Apache项目,我们相信Apache以社区为驱动的开源开发方式将使我们能够与各种贡献者合作发展Apache Hudi,”Hudi的联合创始人Vinoth Chandar说。“我们期待与Apache软件基金会合作,实施最佳实践,并为项目带来新的想法。”

随着时间的推移,在大数据开源社区的帮助下,Hudi已经发展成为一种通用的大数据存储系统,能够实现:

  • 摄取和查询引擎之间的快照隔离,包括Apache Hive、Presto和Apache Spark
  • 支持回滚和保存点来恢复数据集
  • 自动管理文件大小和布局优化查询性能和目录清单
  • 接近实时摄取,以新鲜数据提供查询
  • 异步压缩实时数据和柱状数据

为了证明它的可伸缩性,Hudi目前在Uber管理超过4000个存储数pb数据的表,同时将Apache Hadoop仓库访问延迟从几个小时降低到30分钟以下。与该公司之前使用的解决方案相比,Hudi还以更低的成本和更高的效率驱动了数百个增量数据管道。

展望未来,该项目将与Apache软件基金会合作。请查看Apache Hudi项目页面获取技术文档和社区参与指南。

评论

没有帖子可以显示