全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111459402.4 (22)申请日 2021.12.02 (71)申请人 杭州幻方人工智能基础研究有限公 司 地址 310000 浙江省杭州市下城区环城北 路169号汇金国际大厦西1幢1402室 (72)发明人 梁文锋 黄盼盼 张浩威 张文韬  (74)专利代理 机构 杭州之江专利事务所(普通 合伙) 33216 代理人 张慧英 (51)Int.Cl. G06F 9/48(2006.01) G06F 9/50(2006.01) G06F 9/455(2006.01) G06N 20/00(2019.01)G06N 3/08(2006.01) (54)发明名称 一种集群管理任务调度的方法及装置 (57)摘要 本发明涉及节 点分配领域, 尤其涉及一种集 群管理任务调度的方法, 通过任务优先级、 用户 权利数、 运行时长、 用户使用率等多个维度进行 参考按排列分配, 能实现将有限的算力资源在用 户与任务的之间尽可能的合理分配, 实现内部资 源的分配均衡。 本发明的有益效果在于: 与传统 调度相比, 通过独立的调度算模块设计, 克服了 传统模块中调度模块与其他模块的对接耦合的 问题, 使得程序更加灵活容易扩展。 采用中断、 启 动逻辑二合一的模式, 从调度的层面无需关心任 务状态, 是新建任务、 被中断的任务还是重启的 任务, 只需计算结果, 从底层设计提高了任务调 度模块的独立性, 为后续更多的用户 、 更庞大的 集群及更加复杂的平台服 务场景提供的条件。 权利要求书2页 说明书8页 附图2页 CN 114138441 A 2022.03.04 CN 114138441 A 1.一种集群管理任务调度的方法, 其特征在于, 每间隔一个调度时间便触发如下的调 度操作步骤: (1)获取所有任务的训练参数; (2)获取集群中可用节点信息; (3)按优先级降序排列, 优先级列表中最高优先级的任务优先获得运行许可; 如果还有 可用节点, 则进入下一优先级的任务调度, 直到可用节点或任务分配结束; (4)调度结束, 任务 开始运行。 2.根据权利要求1所述的集群管理任务调度的方法, 其特征在于, 步骤(3)所述的优先 级的任务调度包括如下步骤: (3.1)获取每 个用户的节点配额, 根据用户提交任务占用节点数求得用户节点需求数; (3.2)如果可用节点之和大于等于所有用户节点需求数之和, 此 时节点够用, 用户节点 权利数, 等于该用户节点需求数, 根据用户节点权利数, 分配可用节点, 使得用户权利数内 对应的任务获得运行 许可, 本优先级任务分配完毕; (3.3)如果可用节点数量小于所有用户节点需求数之和, 用户节点权利数为将可用节 点在用户之间按节 点配额比例进 行分配得到数值, 根据用户节点权利数, 分配可用节点, 使 得用户权利数内对应的任务获得运行 许可; (3.4)剩余任务中, 对获取连续运行时长小于标记时长的任务, 连续运行时长短的任务 优先获得运行 许可; (3.5)还有可用节点的情况下, 获取每个用户使用率, 剩余可用节点优先用于用户使用 率低的用户提交的任务。 3.根据权利2所述的集群管理任务调度的方法, 其特征在于, 步骤(3.5)所述用户使用 率为一个用户实际占用的节点与用户节点配额的比例。 4.根据权利要2所述的集群管理任务调度的方法, 其特征在于, 步骤(3.3)所述的用户 节点权利数的计算方法为通过的迭代法, 逼近求出缩放因子P, P需要达到浮点数最高精度, 该用户节 点权利数=min(可用节点*该用户节点配额/所有用户节 点需求数之和, 该用户节 点需求数), 并同时满足所有用户节点权利数之和等于空 闲节点数。 5.根据权利要求2所述的集群管理任务调度的方法, 其特征在于, 按步骤(3.5)所述的 用户使用率对涉及到的用户进 行升序排序, 按顺序每个用户可以运行且只能运行一个任务 进行依次轮转, 然后重复上述轮转过程, 直到可用节点、 任务分配完毕, 或剩余的任务节点 数都大于可用节点数。 6.根据权利要求5所述的集群管理任务调度的方法, 其特征在于, 步骤(3.5)所述的每 个用户使用率轮转的过程中, 每轮每个用户只能运行一个任务, 优先选择该用户的处于运 行、 挂起状态的任务, 获得运行许可, 当运行、 挂起状态任务分配完成后, 后面进 行用户使用 率轮换的时候, 再选择处于待运行状态的任务, 获得运行 许可。 7.根据权利要求1所述的集群管理任务调度的方法, 其特征在于, 对于每个用户提交任 务获得运行许可 的顺序遵循先进先出 的原则, 按任务提交的时间顺序, 先提交的任务优先 满足, 然后依次为后面 提交的任务。 8.根据权利要求1所述的集群管理任务调度的处理方法, 其特征在于, 调度时间设定为 1秒。权 利 要 求 书 1/2 页 2 CN 114138441 A 29.根据权利要2所述的集群管理任务调度的方法, 其特征在于, 步骤(3.4)所述标志时 长为15分钟。 10.一种应用 如权利要求1 ‑8任一权利要求所述方法的计算机装置, 其特征在于, 包括 存储器、 处理器、 总线以及存 储在存储器上并可在处 理器上运行的计算机程序。权 利 要 求 书 2/2 页 3 CN 114138441 A 3

.PDF文档 专利 一种集群管理任务调度的方法及装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种集群管理任务调度的方法及装置 第 1 页 专利 一种集群管理任务调度的方法及装置 第 2 页 专利 一种集群管理任务调度的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:20:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。