标签:蜂巢
Marmaray:一个开源的通用数据吸收和散布框架和Apache库…
今天我们介绍Marmaray,这是一个开源框架,允许Apache Hadoop的数据摄取和分发,实现了我们的任何同步到任何源的功能,包括数据格式验证。
扩展优步的Apache Hadoop分布式文件系统
优步的数据基础设施团队通过合并一些新的特性和功能来调整我们的存储基础设施的方法,包括ViewFs、NameNode垃圾收集调优和HDFS负载管理服务。
Queryparser,一个用于解析和分析SQL的开源工具
Queryparser是用Haskell编写的,是Uber Engineering的开源工具,用于解析和分析SQL查询,可以很容易地识别大型数据仓库中的外键关系。
利用ELK实时设计优步预测
Uber Engineering使用开源RESTful搜索引擎Elasticsearch、Logstash和Kibana (ELK)构建了一个实时出行特征预测系统。
优步工程在Apache Hadoop上的增量处理框架
优步工程的数据处理平台团队最近建立了一个开源的增量处理框架Hudi,支持我们的业务关键数据管道。在本文中,我们将看到Hudi是如何推动一个丰富的数据生态系统的,在这个生态系统中,外部数据源可以近乎实时地被输入Hadoop。
流化的,优步工程的Hadoop大数据摄取服务
在这里,我们来看看Hadoop数据的摄入,以及优步工程如何将不同的数据流化为一个内聚层,以便使用我们内部开发的Streamific进行近乎实时的查询。



















