4 月 18 日消息来自 IT 之家。在云原生调度领域,一次调度通常难以解决所有问题,必须配合重调度才能优化资源分配以及任务摆放。今日,字节跳动的技术团队对外宣布开源 Godel - Rescheduler,此框架号称是“适用于云原生系统的全局最优重调度框架”。
字节官方介绍称,这有一个重调度框架,此框架基于全局最优调度策略。它既能识别集群里的异常节点与任务,又能智能地将任务推荐到最合适的位置,还能通过图算法生成详细的迁移步骤,以此确保集群的整体稳定性,从而真正实现全局最优调度。
Godel-Rescheduler 包含两个核心模块,分别是 Policy Manager 和 Movement Manager。Policy Manager 的职责是输出重调度决策,Movement Manager 负责将这些决策进行拆解并执行。整个框架的目标在于通过重调度,促使集群朝着全局最优状态前进。
目前字节跳动已成功把 Godel-Rescheduler 运用到多个内部项目里,能支持多种重调度策略协同运作。比如:
在实际应用里,Godel-Rescheduler 帮助了字节跳动的数万卡 GPU 集群,使其碎片率被控制在 5%以下。并且在大规模混合部署集群中,热点节点的比例也被控制在 0.1%以下。
IT之家附 Godel ReScheduler 项目地址: