专利深度学习任务资源分配方法和系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210564956.9 (22)申请日 2022.05.23 (65)同一申请的已公布的文献号申请公布号 CN 114661480 A (43)申请公布日 2022.06.24 (73)专利权人阿里巴巴（中国）有限公司地址 311121 浙江省杭州市余杭区五常街道文一西路969号3幢5层5 54室 (72)发明人卞微知　刘毅　 (74)专利代理机构北京展翼知识产权代理事务所(特殊普通合伙) 11452 专利代理师张阳 (51)Int.Cl. G06F 9/50(2006.01) G06F 9/48(2006.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 110290075 A,2019.09.27 CN 114389955 A,2022.04.22 胡亚红等.资源不均衡Spark环境任务调度优化算法研究. 《计算机工程与科学》 .2020,(第 02期), 审查员辛小霞 (54)发明名称深度学习任务资源分配方法和系统 (57)摘要公开了一种深度学习任务资源分配方法和系统。所述资源分配方法包括：采集CPU资源和异构资源的工作状态；根据采集的工作状态构造资源特征；根据用户提交的深度学习任务构造任务特征；根据所述资源特征和所述任务特征确定针对所述任务的资源分配决策结果；以及基于所述资源分配决策结果，向所述深度学习任务分配 CPU资源和异构资源。本方案能够在平台层面优化对CPU资源和异构资源的调度。具体地，该方案利用池化技术将异构的资源抽象为统一的资源池，通过对资源状态的实时采集和智能决策，结合现有的云平台容器化管理应用，实现全平台 CPU和异构资源的高利用率智能调度。权利要求书2页说明书11页附图5页 CN 114661480 B 2022.09.02 CN 114661480 B 1.一种深度学习任务资源分配方法，包括：采集CPU资源和异构资源的工作状态；根据采集的工作状态构造资源特征；根据用户提交的深度学习任务构造任务特征；根据所述资源特征和所述任务特征确定针对所述任务的资源分配决策结果；以及基于所述资源分配决策结果，向所述深度学习任务分配CPU资源和异构资源，其中，所述方法还包括：将包括CPU的计算节点作为CPU计算节点加入CPU计算节点集合；对计算节点包括的异构硬件进行分析并将分析得到的计算能力和显存加入异构资源池，其中，所述采集CPU资源和异构资源的工作状态包括：实时采集所述CPU计算节点集合内各个CPU计算节点的工作状态；以及实时采集所述异构资源池内各个异构硬件的计算能力和显存的使用状态。 2.如权利要求1所述的方法，其中，所述采集CPU资源和异构资源的工作状态包括：实时采集连通CPU计算节点和异构资源池的高速网络的网络状态；以及实时采集CPU计算节点和异构资源绑定状态。 3.如权利要求1所述的方法，其中，对用户提交的深度学习任务构造任务特征包括：估算用户提交的所述深度学习任务所需的CPU计算资源和异构资源；以及根据估算的所需的CPU计算资源和异构资源构造所述任务特征。 4.如权利要求1所述的方法，其中，根据所述资源特征和所述任务特征确定针对所述任务的资源分配决策结果包括：将所述任务特征和所述资源特征进行向量化表示；将向量化表示生成的特征向量送入调度策略价值评估网络；以及获取调度策略价值评估网络的输出结果作为所述资源分配决策结果。 5.如权利要求4所述的方法，其中，所述调度策略价值评估网络的参数基于强化学习进行自适应调整，以获取优化的调度策略。 6.如权利要求1所述的方法，其中，根据所述资源特征和所述任务特征确定针对所述任务的资源分配决策结果包括：基于当前的调度策略选择，确定当前调度策略下针对所述任务的资源分配决策结果。 7.如权利要求1所述的方法，其中，基于所述资源分配决策结果，向所述深度学习任务分配CPU资源和异构资源包括：基于所述资源分配决策结果，向所述深度学习任务分配CPU计算资源和异构资源；以及在分配的CPU计算资源所在的节点上建立用于与异构资源通信的虚拟异构资源代理。 8.如权利要求7 所述的方法，还包括：基于分配的CPU计算资源和虚拟异构资源代理构建任务单元；将用户提交的深度学习任务发送给所述任务单元进行执行。 9.一种深度学习任务资源分配系统，包括：计算服务器集群，用于为计算平台提供CPU资源和异构资源以进行深度学习计算；工作状态采集节点，用于采集所述计算服务器集群中CPU资源和异构资源的工作状态；权　利　要　求　书 1/2 页 2 CN 114661480 B 2智能决策节点，用于根据采集的工作状态构造资源特征，根据用户提交的深度学习任务构造任务特征分析，并根据所述资源特征和所述任务特征确定针对所述任务的资源分配决策结果；资源分配节点，用于基于所述资源分配决策结果，向所述深度学习任务分配CPU资源和异构资源，其中，包括CPU的计算节点被作为CPU计算节点加入CPU计算节点集合，对计算节点包括的异构硬件进行分析并将分析得到的计算能力和显存加入异构资源池，其中，所述工作状态采集节点用于：实时采集所述CPU计算节点集合内各个CPU计算节点的工作状态；以及实时采集所述异构资源池内各个异构硬件的计算能力和显存的使用状态。 10.一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至8中任一项所述的方法。 11.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至8中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114661480 B 3

专利 深度学习任务资源分配方法和系统

专利深度学习任务资源分配方法和系统