专利智能体训练方法、跨域异构环境任务调度方法及相关装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210663848.7 (22)申请日 2022.06.14 (65)同一申请的已公布的文献号申请公布号 CN 114757352 A (43)申请公布日 2022.07.15 (73)专利权人中科链安（北京）科技有限公司地址 100027 北京市东城区东直门外大街 35号东湖别墅C座6 01 (72)发明人孙昌勇　杨谈　王延巍　杜炯　郑永伯　 (74)专利代理机构北京金咨知识产权代理有限公司 11612 专利代理师宋教花 (51)Int.Cl. G06F 9/48(2006.01)G06F 9/50(2006.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06N 7/00(2006.01) (56)对比文件 CN 113485826 A,2021.10.08 CN 110781614 A,2020.02.1 1 黄亭飞等.基于DQN的多类型拦截装备复合式反无人机任务分配方法. 《控制与决策》 .202 2, 第37卷(第1期),第142-15 0页. 刘星等.基于深度强化学习算法的财务机器人任务分配的研究. 《中国管理信息化》 .202 2, 第25卷(第1期),第42-46页. 审查员王伟 (54)发明名称智能体训练方法、跨域异构环境任务调度方法及相关装置 (57)摘要本申请提供一种智能体训练方法、跨域异构环境任务调度方法及相关装置，智能体训练方法包括：获取用于模拟真实的跨域异构环境中任务负载的预训练数据；根据预训练数据对深度强化学习智能体进行训练，以使深度强化学习智能体用于对针对跨域异构环境进行任务调度，其中，深度强化学习智能体预先基于D3QN模型和跨域异构环境的任务调度问题对应的马尔可夫决策过程构建而得。本申请能够构建一种兼顾任务调度实时性和高效性的智能体，能够有效提高应用该智能体进行跨域异构环境中任务调度的时效性，能够增加整个任务调度系统的吞吐量并最大化利用跨域环境中提供的计算资源，以保证任务调度的结果兼顾任务处理的高效性和计算节点之间的负载均衡性。权利要求书3页说明书17页附图5页 CN 114757352 B 2022.09.23 CN 114757352 B 1.一种智能体训练方法，其特征在于，包括：获取用于模拟真实的跨域异构环境中任务负载的预训练数据；将所述跨域异构环境中的任务调度问题建模为马尔可夫决策过程，并设计对应的状态空间、动作空间及奖励函数，以形成该马尔可夫决策过程的四元组，其中，所述四元组用于记录当前状态、动作、奖励和下一个状态；其中，所述奖励函数基于在所述跨域异构环境中进行任务调度的性能评价指标构建而得，该奖励函数如下述公式所示：在奖励函数中，表示t时刻将第i个任务分配给第j台计算节点后智能体得到的实时奖励； C为一个对数增强系数，用于确保对数计算的合法性；表示第i个任务的任务长度；表示第i个任务的传输时间和执行时间的加权对数和； STD表示分配的计算节点的任务负载的加权标准差；和均为权重系数；根据预训练数据对预设的深度强化学习智能体进行训练，以使得该深度强化学习智能体用于针对所述跨域异构环境进行任务调度，其中，所述深度强化学习智能体预先基于 D3QN模型和所述跨域异构环境的任务调度问题对应的马尔可夫决策过程构建而得；其中，所述深度强化学习智能体用于针对所述跨域异构环境进行任务调度，包括：深度强化学习智能体根据输入其中的状态表示，所述状态表示为：预先基于目标任务的任务信息及当前所述跨域异构环境的负载信息生成的所述目标任务的马尔可夫决策过程的状态表示；输出对应的用于在所述跨域异构环境中对所述目标任务进行资源分配的决策结果；所述深度强化学习智能体，包括：动作决策单元、分别与该动作决策单元连接的回报计算单元、参数更新单元和辅助负载均衡单元；所述动作决策单元用于根据所述预训练数据进行模型训练；所述回报计算单元用于根据所述动作决策单元输出的动作计算对应的奖励值，并将该奖励值存储至预设的经验回放池；所述参数更新单元用于根据所述经验回放池进行所述D3QN模型的参数更新；所述辅助负载均衡单元用于根据辅助负载均衡方法对所述动作决策单元输出的动作进行辅助负载均衡，其中，所述辅助负载均衡方法包括：基于阶梯负载均衡因子的辅助负载均衡方法，或者，基于任务亲和度的辅助负载均衡方法。 2.根据权利要求1所述的智能体训练方法，其特征在于，在所述根据预训练数据对预设的深度强化学习智能体进行训练之前，还包括：基于双Q学习算法和竞争网络结构对深度Q网络DQ N进行优化，以得到D3Q N模型；其中，所述D3QN模型包括四组全连接层，其中的第一组全连接层与第二组全连接层连接，并均用于处理输入的状态；所述第二组全连接层还分别连接第三组全连接层和第四组权　利　要　求　书 1/3 页 2 CN 114757352 B 2全连接层，所述第三组全连接层用于计算价值函数部分，所述第四组全连接层用于计算优势函数部分，所述第三组全连接层和所述第四组全连接层的计算结果之和产生对应的Q 值。 3.一种跨域异构环境任务调度方法，其特征在于，包括：接收针对跨域异构环境的任务调取请求；根据所述任务调取请求对应的目标任务的任务信息及当前所述跨域异构环境的负载信息，生成所述目标任务的马尔可夫决策过程的状态表示；将所述状态表示输入深度强化学习智能体，并根据该深度强化学习智能体输出的决策结果在所述跨域异构环境中对所述目标任务进行资源分配；其中，所述深度强化学习智能体预先应用权利要求1或2所述的智能体训练方法训练得到。 4.根据权利要求3所述的跨域异构环境任务调度方法，其特征在于，所述根据该深度强化学习智能体输出的决策结果在所述跨域异构环境中对所述目标任务进行资源分配，包括：获取所述深度强化学习智能体中的动作决策单元输出的动作；基于所述深度强化学习智能体中的辅助负载均衡单元对所述动作决策单元输出的动作进行辅助负载均衡，得到优化后的决策结果，其中，所述辅助负载均衡单元采用的辅助负载均衡方法包括：基于阶梯负载均衡因子的辅助负载均衡方法，或者，基于任务亲和度的辅助负载均衡方法；根据所述优化后的决策结果在所述跨域异构环境中对所述目标任务进行资源分配。 5.一种深度强化学习智能体训练装置，其特征在于，包括：数据获取模块，用于获取用于模拟真实的跨域异构环境中任务负载的预训练数据；模型训练模块，用于根据预训练数据对预设的深度强化学习智能体进行训练，以使得该深度强化学习智能体用于针对所述跨域异构环境进行任务调度，其中，所述深度强化学习智能体预先基于D3QN模型和所述跨域异构环境的任务调度问题对应的马尔可夫决策过程构建而得；其中，所述深度强化学习智能体用于针对所述跨域异构环境进行任务调度，包括：深度强化学习智能体根据输入其中的状态表示，所述状态表示为：预先基于目标任务的任务信息及当前所述跨域异构环境的负载信息生成的所述目标任务的马尔可夫决策过程的状态表示；输出对应的用于在所述跨域异构环境中对所述目标任务进行资源分配的决策结果；所述深度强化学习智能体训练装置还用于在所述根据预训练数据对预设的深度强化学习智能体进行训练之前，执行下述内容：将所述跨域异构环境中的任务调度问题建模为马尔可夫决策过程，并设计对应的状态空间、动作空间及奖励函数，以形成该马尔可夫决策过程的四元组，其中，所述四元组用于记录当前状态、动作、奖励和下一个状态；其中，所述奖励函数基于在所述跨域异构环境中进行任务调度的性能评价指标构建而得，该奖励函数如下述公式所示：权　利　要　求　书 2/3 页 3 CN 114757352 B 3

专利 智能体训练方法、跨域异构环境任务调度方法及相关装置

专利智能体训练方法、跨域异构环境任务调度方法及相关装置