全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210564956.9 (22)申请日 2022.05.23 (65)同一申请的已公布的文献号 申请公布号 CN 114661480 A (43)申请公布日 2022.06.24 (73)专利权人 阿里巴巴 (中国) 有限公司 地址 311121 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 卞微知 刘毅  (74)专利代理 机构 北京展翼知识产权代理事务 所(特殊普通 合伙) 11452 专利代理师 张阳 (51)Int.Cl. G06F 9/50(2006.01) G06F 9/48(2006.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 110290075 A,2019.09.27 CN 114389955 A,2022.04.22 胡亚红等.资源不均衡Spark环境任务调度 优化算法研究. 《计算机 工程与科 学》 .2020,(第 02期), 审查员 辛小霞 (54)发明名称 深度学习任务资源分配方法和系统 (57)摘要 公开了一种深度学习任务资源分配方法和 系统。 所述 资源分配方法包括: 采集CPU资源和异 构资源的工作状态; 根据采集的工作状态构造资 源特征; 根据用户提交的深度学习任务构造任务 特征; 根据所述资源特征和所述任务特征确定针 对所述任务的资源分配决策结果; 以及基于所述 资源分配决策结果, 向所述深度学习任务分配 CPU资源和异构资源。 本方案能够在平台层面优 化对CPU资源和异构资源的调度。 具体地, 该方案 利用池化技术将异构的资源抽象为统一的资源 池, 通过对资源状态的实时采集和智 能决策, 结 合现有的云平台容器化管理应用, 实现全平台 CPU和异构资源的高利用率智能调度。 权利要求书2页 说明书11页 附图5页 CN 114661480 B 2022.09.02 CN 114661480 B 1.一种深度学习任务资源分配方法, 包括: 采集CPU资源和异构资源的工作状态; 根据采集的工作状态构造资源特 征; 根据用户提交的深度学习任务构造任务特 征; 根据所述资源特 征和所述任务特 征确定针对所述任务的资源分配决策 结果; 以及 基于所述资源分配决策 结果, 向所述深度学习任务分配CPU资源和异构资源, 其中, 所述方法还 包括: 将包括CPU的计算节点作为CPU计算节点加入CPU计算节点 集合; 对计算节点包括的异构硬件进行分析并将分析得到的计算能力和显存加入异构资源 池, 其中, 所述采集CPU资源和异构资源的工作状态包括: 实时采集所述CPU计算节点 集合内各个CPU计算节点的工作状态; 以及 实时采集所述异构资源 池内各个异构硬件的计算能力和显存的使用状态。 2.如权利要求1所述的方法, 其中, 所述采集CPU资源和异构资源的工作状态包括: 实时采集连通CPU计算节点和异构资源 池的高速网络的网络状态; 以及 实时采集CPU计算节点和异构资源绑定状态。 3.如权利要求1所述的方法, 其中, 对用户提交的深度学习任务构造任务特 征包括: 估算用户提交的所述深度学习任务所需的CPU计算资源和异构资源; 以及 根据估算的所需的CPU计算资源和异构资源构造所述任务特 征。 4.如权利要求1所述的方法, 其中, 根据所述资源特征和所述任务特征确定针对所述任 务的资源分配决策 结果包括: 将所述任务特 征和所述资源特 征进行向量 化表示; 将向量化表示生成的特 征向量送入调度策略价 值评估网络; 以及 获取调度策略价 值评估网络的输出 结果作为所述资源分配决策 结果。 5.如权利要求4所述的方法, 其中, 所述调度 策略价值评估 网络的参数基于强化学习 进 行自适应调整, 以获取优化的调度策略。 6.如权利要求1所述的方法, 其中, 根据所述资源特征和所述任务特征确定针对所述任 务的资源分配决策 结果包括: 基于当前的调度策略选择, 确定当前调度策略下针对所述任务的资源分配决策 结果。 7.如权利要求1所述的方法, 其中, 基于所述资源分配决策结果, 向所述深度学习任务 分配CPU资源和异构资源 包括: 基于所述资源分配决策 结果, 向所述深度学习任务分配CPU计算资源和异构资源; 以及 在分配的CPU计算资源所在的节点上建立用于与异构资源通信的虚拟异构资源代理。 8.如权利要求7 所述的方法, 还 包括: 基于分配的CPU计算资源和虚拟异构资源代理构建任务单 元; 将用户提交的深度学习任务发送给 所述任务单 元进行执行。 9.一种深度学习任务资源分配系统, 包括: 计算服务器集群, 用于为计算平台提供CPU资源和异构资源以进行深度学习计算; 工作状态采集节点, 用于采集所述计算 服务器集群中CPU资源和异构资源的工作状态;权 利 要 求 书 1/2 页 2 CN 114661480 B 2智能决策节点, 用于根据采集的工作状态构造资源特征, 根据用户提交的深度学习任 务构造任务特征分析, 并根据所述资源特征和所述任务特征确定针对所述任务的资源分配 决策结果; 资源分配节点, 用于基于所述资源分配决策结果, 向所述深度 学习任务分配CPU资源和 异构资源, 其中, 包括CPU的计算节点被作 为CPU计算节点加入CPU计算节点集合, 对计算节点包括 的异构硬件进行分析并将分析 得到的计算能力和显存加入异构资源 池, 其中, 所述工作状态采集节点用于: 实时采集所述CPU计算节点 集合内各个CPU计算节点的工作状态; 以及 实时采集所述异构资源 池内各个异构硬件的计算能力和显存的使用状态。 10.一种计算设备, 包括: 处理器; 以及 存储器, 其上存储有可执行代码, 当所述可执行代码被所述处理器执行时, 使所述处理 器执行如权利要求1至8中任一项所述的方法。 11.一种非暂时性机器可读存储介质, 其上存储有可执行代码, 当所述可执行代码被电 子设备的处 理器执行时, 使所述处 理器执行如权利要求1至8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114661480 B 3

.PDF文档 专利 深度学习任务资源分配方法和系统

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 深度学习任务资源分配方法和系统 第 1 页 专利 深度学习任务资源分配方法和系统 第 2 页 专利 深度学习任务资源分配方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:33:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。