全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210663848.7 (22)申请日 2022.06.14 (65)同一申请的已公布的文献号 申请公布号 CN 114757352 A (43)申请公布日 2022.07.15 (73)专利权人 中科链安 (北京) 科技有限公司 地址 100027 北京市东城区东 直门外大街 35号东湖别墅C座6 01 (72)发明人 孙昌勇 杨谈 王延巍 杜炯  郑永伯  (74)专利代理 机构 北京金咨知识产权代理有限 公司 11612 专利代理师 宋教花 (51)Int.Cl. G06F 9/48(2006.01)G06F 9/50(2006.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06N 7/00(2006.01) (56)对比文件 CN 113485826 A,2021.10.08 CN 110781614 A,2020.02.1 1 黄亭飞 等.基 于DQN的多类型拦截 装备复合 式反无人机任务分配方法. 《控制与决策》 .202 2, 第37卷(第1期),第142-15 0页. 刘星 等.基 于深度强化学习算法的财务机 器人任务分配的研究. 《中国管理信息化》 .202 2, 第25卷(第1期),第42-46页. 审查员 王伟 (54)发明名称 智能体训练方法、 跨域异构环 境任务调度方 法及相关装置 (57)摘要 本申请提供一种智能体训练方法、 跨域异构 环境任务调度方法及相关装置, 智能体训练方法 包括: 获取用于模拟真实的跨域异构环境中任务 负载的预训练数据; 根据预训练数据对深度强化 学习智能体进行训练, 以使深度强化学习智能体 用于对针对跨域异构环境进行任务调度, 其中, 深度强化学习智能体预先基于D3QN模型和跨域 异构环境的任务调度问题对应的马尔可夫决策 过程构建而得。 本申请能够构建一种兼顾任务调 度实时性和高效性的智能体, 能够有效提高应用 该智能体进行跨域异构环境中任务调度的时效 性, 能够增加整个任务调度系统的吞吐量并最大 化利用跨域环 境中提供的计算资源, 以保证任务 调度的结果兼顾任务处理的高效性和计算节点 之间的负载均衡性。 权利要求书3页 说明书17页 附图5页 CN 114757352 B 2022.09.23 CN 114757352 B 1.一种智能体训练方法, 其特 征在于, 包括: 获取用于模拟真实的跨 域异构环境中任务负载的预训练数据; 将所述跨域异构环境中的任务调度问题建模为马尔可夫 决策过程, 并设计对应的状态 空间、 动作空间及奖励函数, 以形成该马尔可夫决策过程的四元组, 其中, 所述四元组用于 记录当前状态、 动作、 奖励和下一个 状态; 其中, 所述奖励函数基于在所述跨域异构环境中进行任务调度的性能评价指标构建而 得, 该奖励函数如下述公式所示: 在奖励函数中, 表示t时刻将第i个任务分配给第j台计算节点后智能体得到的实时 奖励; C为一个对数增 强系数, 用于确保对数计算的合法性; 表示第i个任务的任务长 度; 表示第i个任务的传输时间和执行时间的加权对数和; STD表示分配的计算节点 的任务负载的加权标准差; 和 均为权重系数; 根据预训练数据对预设的深度强化学习智能体进行训练, 以使得该深度强化学习智能 体用于针对所述跨域异构环境进行任务调度, 其中, 所述深度强化学习智能体预先基于 D3QN模型和所述 跨域异构环境的任务调度问题对应的马尔可 夫决策过程构建而得; 其中, 所述深度强化学习智能体用于针对所述 跨域异构环境进行任务调度, 包括: 深度强化学习智能体根据输入其中的状态表示, 所述状态表示为: 预先基于目标任务 的任务信息及当前所述跨域异构环境的负载信息生成的所述目标任务的马尔可夫决策过 程的状态 表示; 输出对应的用于在所述 跨域异构环境中对所述目标任务进行资源分配的决策 结果; 所述深度强化学习智能体, 包括: 动作决策单元、 分别与该动作决策单元连接的回报计 算单元、 参数更新单元和辅助负载均衡单 元; 所述动作决策 单元用于根据所述预训练数据进行模型训练; 所述回报计算单元用于根据 所述动作决策单元输出的动作计算对应的奖励值, 并将该 奖励值存 储至预设的经验回放池; 所述参数更新单元用于根据所述经验回放池进行 所述D3QN模型的参数 更新; 所述辅助负载均衡单元用于根据辅助负载均衡方法对所述动作决策单元输出的动作 进行辅助负载均衡, 其中, 所述辅助负载均衡方法包括: 基于阶梯负载均衡因子的辅助负载 均衡方法, 或者, 基于任务亲和度的辅助负载均衡方法。 2.根据权利要求1所述的智能体训练方法, 其特征在于, 在所述根据预训练数据对预设 的深度强化学习智能体进行训练之前, 还 包括: 基于双Q学习算法和竞争网络结构对深度Q网络DQ N进行优化, 以得到D3Q N模型; 其中, 所述D3QN模型包括四组全连接层, 其中的第一组全连接层与第二组全连接层连 接, 并均用于处理输入的状态; 所述第二组全连接层还分别连接第三组全连接层和第四组权 利 要 求 书 1/3 页 2 CN 114757352 B 2全连接层, 所述第三组全连接层用于计算价值函数部分, 所述第四组全连接层用于计算优 势函数部分, 所述第三组全连接层和所述第四组全连接层的计算结果之和产生对应的Q 值。 3.一种跨 域异构环境任务调度方法, 其特 征在于, 包括: 接收针对跨 域异构环境的任务调取请求; 根据所述任务调取请求对应的目标任务的任务信息及当前所述跨域异构环境的负载 信息, 生成所述目标任务的马尔可 夫决策过程的状态 表示; 将所述状态表示输入深度强化学习智能体, 并根据 该深度强化学习智能体输出的决策 结果在所述 跨域异构环境中对所述目标任务进行资源分配; 其中, 所述深度强化学习智能体预先应用权利要求1或2所述的智能体训练方法训练得 到。 4.根据权利要求3所述的跨域异构环境任务调度方法, 其特征在于, 所述根据 该深度强 化学习智能体输出的决策结果在所述跨域异构环境中对所述目标任务进行资源分配, 包 括: 获取所述深度强化学习智能体中的动作决策 单元输出的动作; 基于所述深度强化学习智能体中的辅助负载均衡单元对所述动作决策单元输出的动 作进行辅助负载均衡, 得到优化后的决策结果, 其中, 所述辅助负载均衡单元采用的辅助负 载均衡方法包括: 基于阶梯负载均衡因子的辅助负载均衡方法, 或者, 基于任务亲和度的辅 助负载均衡方法; 根据所述优化后的决策 结果在所述 跨域异构环境中对所述目标任务进行资源分配。 5.一种深度强化学习智能体训练装置, 其特 征在于, 包括: 数据获取模块, 用于获取用于模拟真实的跨 域异构环境中任务负载的预训练数据; 模型训练模块, 用于根据预训练数据对预设的深度强化学习智能体进行训练, 以使得 该深度强化学习智能体用于针对所述跨域异构环境进行任务调度, 其中, 所述深度强化学 习智能体预先基于D3QN模型和所述跨域异构环境的任务调度问题对应的马尔可夫决策过 程构建而得; 其中, 所述深度强化学习智能体用于针对所述 跨域异构环境进行任务调度, 包括: 深度强化学习智能体根据输入其中的状态表示, 所述状态表示为: 预先基于目标任务 的任务信息及当前所述跨域异构环境的负载信息生成的所述目标任务的马尔可夫决策过 程的状态 表示; 输出对应的用于在所述 跨域异构环境中对所述目标任务进行资源分配的决策 结果; 所述深度强化学习智能体训练装置还用于在所述根据预训练数据对预设的深度强化 学习智能体进行训练之前, 执 行下述内容: 将所述跨域异构环境中的任务调度问题建模为马尔可夫 决策过程, 并设计对应的状态 空间、 动作空间及奖励函数, 以形成该马尔可夫决策过程的四元组, 其中, 所述四元组用于 记录当前状态、 动作、 奖励和下一个 状态; 其中, 所述奖励函数基于在所述跨域异构环境中进行任务调度的性能评价指标构建而 得, 该奖励函数如下述公式所示: 权 利 要 求 书 2/3 页 3 CN 114757352 B 3

.PDF文档 专利 智能体训练方法、跨域异构环境任务调度方法及相关装置

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 智能体训练方法、跨域异构环境任务调度方法及相关装置 第 1 页 专利 智能体训练方法、跨域异构环境任务调度方法及相关装置 第 2 页 专利 智能体训练方法、跨域异构环境任务调度方法及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:32:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。