首次由Uber于2018年11月推出,Peloton.,统一的资源调度程序,管理跨不同的工作负载的资源,组合单独的计算群集。Peloton专为网格级公司而设计,如优步设计,其中数百万个容器和成千上万的节点。Peloton采用高级资源管理功能,如弹性资源共享,分层最大值公平,资源逾期资源和工作量抢占。作为云无话的系统,Peloton可以在内部部署数据中心或云中运行。
在优步,Peloton是一块基础架构的关键基础设施,供电我们的计算群集。它目前正在生产中运行多种批处理工作负载,并且我们计划对其进行迁移无状态服务负载。
今天,优步们很高兴宣布我们是开放的Peloton。通过允许其他人在集群管理社区利用统一的调度程序和工作负载所在地,Peloton将在整个社区开设更多有效的资源利用和管理。此外,开放的采购Peloton将实现更大的行业合作,并开辟了对世界各地行业工程师,独立开发商和学者的反馈和贡献的反馈和贡献。
使用peloton的好处
为了我们的知识,没有其他人开源调度程序将所有类型的工作负载与超优步等网格级公司相结合。在Peloton之前,Uber的每个工作负载都有自己的群集,导致许多效率低下。使用Peloton,我们可以将共享集群中的混合工作负载纳米,以获得更好的资源利用率。
如图所示谷歌博格纸,共享集群的共同定位各种工作负载是提高集群利用率并降低整体集群成本的关键。下面,我们概述了如何在计算集群中如何驱动COMORICATION的混合工作负载的一些示例,并帮助我们更准确地计划群集配置:
- 资源逾期和职位抢占是提高群集资源利用的关键。但是,抢占在线工作是非常昂贵的,例如经常潜在潜在潜在的无状态或有状态服务。因此,防止这些延迟敏感的作业的抢占要求我们共同定位在同一集群上低优先级和抢先抢占的批处理作业,使我们能够更好地利用过度使用的资源。
- 由于优步服务走向了主动主动架构,我们将为每个数据中心的灾难恢复(DR)保留。DR容量可以用于批处理作业,直到发生数据中心故障转移。此外,共享具有混合工作负载的集群意味着我们不再需要单独购买在线和批量工作负载的额外博士容量。
- 优步的在线工作负载在万圣节或万圣节等大事期间飙升除夕夜。我们需要提前规划这些高流量活动的能力,要求我们单独购买硬件以用于在线和批处理工作。在今年剩下的时间内,这种额外的硬件未充分利用,导致额外和不必要的技术成本。通过在同一群集中共同定位工作负载,我们可以将批量工作负载的容量借给这些尖峰的在线工作负载,而不会购买额外的硬件。
- 不同的工作负载具有通常互补的资源配置文件。例如,状态服务或批处理作业可能是磁盘IO密集但无状态服务通常使用Little Disk IO。鉴于这些配置文件,在同一群集中使用批处理作业提供有意义的有意义。
意识到这些方案将使我们能够实现更高的运营效率,提高容量规划和优化资源共享,很明显,我们需要在一个共享计算平台上将不同的工作负载共同定位在一起。统一的资源调度程序将使我们能够管理各种工作负载以尽可能高效地使用我们的资源无论是私人数据中心和云。
Peloton将通过弹性共享资源支持Uber的工作负载,平衡资源使用,并帮助团队更好地计划以获得未来的容量需求。通过阅读了解有关这些优势的更多信息我们最近的一篇文章在peloton上。
当前版本中的功能
优步已经在生产中运行了一年多的时间,它的缩放和运行得很好。以下是一些功能亮点。
- 弹性资源共享:支持分层资源池以弹性地共享不同团队之间的资源。
- 资源覆盖和任务抢占:使用Slack Resources和Prememing最佳努力工作负载调度工作负载来提高群集利用率。
- 针对大数据工作负载进行了优化:支持高级Apache Spark功能,如动态资源分配。
- 优化机器学习:支持GPU和Gang调度,以便进行TensorFlow和霍洛维多。在生产中管理数千个GPU
- Protobuf / GRPC的API:支持大多数语言绑定,如golang,java,python和node.js.
- 共调度混合工作负载:在单个群集中支持诸如批处理,无状态和状态作业的混合工作负载。
- 高可扩展性:缩小到数百万个容器和数万个节点,如我们所示基准测试在我们最近的Kubecon谈话。
优步的Peloton团队也在努力解决无国籍服务支持,即将推出。请访问下一步我们关于Peloton的文章的一部分了解更多细节。
开始
我们希望你为自己试试宫殿!!通过阅读了解更多信息我们最近的一篇文章在Peloton和我们的文件或加入我们的懈怠渠道对软件有任何疑问。






