全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210618571.6 (22)申请日 2022.06.01 (71)申请人 北京潞晨科技有限公司 地址 100089 北京市海淀区海淀大街34 号8 层801-802室 (72)发明人 黄海晨 卞正达 李永彬 柳泓鑫  刘育良 麦思琪  (74)专利代理 机构 北京沃知思真知识产权代理 有限公司 1 1942 专利代理师 高小艳 (51)Int.Cl. G06F 9/50(2006.01) G06T 1/20(2006.01) G06K 9/62(2022.01) (54)发明名称 并行异构平台计算MOE的训练方法 (57)摘要 本发明公开了并行异构平台计算M OE的训练 方法, 属于计算机技术领域, 该训练方法具体步 骤如下: (1)获取分布张量并进行分发; (2)对各 参数信息进行阶段混合并进行数据处理; (3)对 GPU参数移动进行训练优化; 本发明能够减少无 意义的计算与数据读取开销以及减小读入数据 的载入时间, 同时通过对参数进行分类, 能够减 少不必要的通信以及通信次数, 且减少通信次数 增多带来的固定的通信建立时间, 能够实现在 GPU资源较少、 质量较低时训练MOE模型。 权利要求书2页 说明书4页 附图1页 CN 114968587 A 2022.08.30 CN 114968587 A 1.并行异构平台计算MOE的训练方法, 其特 征在于, 该训练方法具体步骤如下: (1)获取分布张量并进行分发; (2)对各参数信息进行阶段混合并进行 数据处理; (3)对GPU参数移动进行训练优化。 2.根据权利 要求1所述的并行异构平台计算MOE的训练方法, 其特征在于, 步骤(1)中所 述分布张量分发具体步骤如下: 步骤一: 混合专家系统接收外部输入数据以及门的权重数据, 并将两组数据通过门计 算函数进行运 算以获取分布张量; 步骤二: 通过top ‑K路由函数为分布张量中的每组字段选出最大的k个专家, 同时将每 一组字段的目标写入目的地张量中, 并实时监测各组目标专 家字段接收情况; 步骤三: 当存在目标专家接收字段数量超出上限时, 禁止相对应字段继续传输给目标 专家, 同时将各组字段 是否发送在掩码张量中进行记录 。 3.根据权利 要求1所述的并行异构平台计算MOE的训练方法, 其特征在于, 步骤(2)中所 述阶段混合具体步骤如下: 第一步: ZERO并行优化器接收各组参数信息, 同时将接收到的各组参数信息按照不共 享专家参数、 共享切分参数以及共享 不切分参数进行分类; 第二步: 当参数类型为不共享专家参数时, ZERO并行优化器将所有的该参数均匀地分 配给每一个进程, 每 个进程上的专 家各不相同, 且不对该类参数进行累加操作; 第三步: 当参数类型为共享切分参数 时, ZERO并行优化器对该参数的梯度进行reduce ‑ scatter通信操作, 并对 该参数进行求和处理, 再通过第三阶段的并行方式对该参数进 行均 匀切分, 让每 个进程拥有一部分该参数以消去原本的冗余; 第四步: 当参数类型为共享不切分参数时, ZERO并行优化器对该参数的梯度进行 reduce‑scatter通信操作, 并对该参数进行求和处理, 再通过第二阶段的并行方式将该参 数在优化器中的状态和梯度均匀 切分在各个进程。 4.根据权利要求3所述的并行异构平台计算MOE的训练方法, 其特征在于, 第一步中所 述不共享专家参数具体为MoE模组每个专家模型的参数, 所述共享切分参数以及共享不切 分参数在原本的数据并行中, 并且每 个进程都拥有一个该参数的拷贝副本 。 5.根据权利 要求2所述的并行异构平台计算MOE的训练方法, 其特征在于, 步骤(2)中所 述数据处 理具体步骤如下: S1: 并行异构平台收集计算得到的目的地张量、 掩码张量以及输入数据, 并通过分发函 数将输入的每一个字段最多发送给k个专家以得到每个专家需要的字段, 再在所有进程之 间交换字段; S2: 交换完成后, 每个进程内的专家处理收到的字段, 之后再恢复原顺序, 得到专家输 出; S3: 并行异构平台通过组合函数将 目的地张量、 掩码张量以及输入数据进行线性组合 以得到与原字段相对应的处 理后字段; S4: 将专家输出字段与输入字段进行一一对应以得到MOE输出, 同时通过输入计算生成 经过MLP处理的残余输出与组合权重, 之后将残余输出与MOE输出按组合权重进行线性组 合, 之后将组合结果作为 最终结果输出。权 利 要 求 书 1/2 页 2 CN 114968587 A 26.根据权利 要求1所述的并行异构平台计算MOE的训练方法, 其特征在于, 步骤(3)中所 述训练优化具体步骤如下: P1: 将目前计算必要的参数移动到GPU, 当计算完成后, 将所有GPU上参数移动回CPU, 同 时记录每 个参数参与计算的顺序以及未来激活数据所占空间大小; P2: 当需要将必要的参数移动到GPU时, 依据未来激活数据所占空间大小判断是否需要 通过驱逐GPU上的参数为将要移动的参数腾出空间; P3: 若判断结果为不需要, 则直接将该参数移动 到GPU上, 若判断结果为需要, 则检查当 前在GPU上的所有参数, 通过每 个参数参与计算的顺序, 驱逐最晚被使用的参数。权 利 要 求 书 2/2 页 3 CN 114968587 A 3

.PDF文档 专利 并行异构平台计算MOE的训练方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 并行异构平台计算MOE的训练方法 第 1 页 专利 并行异构平台计算MOE的训练方法 第 2 页 专利 并行异构平台计算MOE的训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:32:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。