专利并行异构平台计算MOE的训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210618571.6 (22)申请日 2022.06.01 (71)申请人北京潞晨科技有限公司地址 100089 北京市海淀区海淀大街34 号8 层801-802室 (72)发明人黄海晨　卞正达　李永彬　柳泓鑫　刘育良　麦思琪　 (74)专利代理机构北京沃知思真知识产权代理有限公司 1 1942 专利代理师高小艳 (51)Int.Cl. G06F 9/50(2006.01) G06T 1/20(2006.01) G06K 9/62(2022.01) (54)发明名称并行异构平台计算MOE的训练方法 (57)摘要本发明公开了并行异构平台计算M OE的训练方法，属于计算机技术领域，该训练方法具体步骤如下： (1)获取分布张量并进行分发； (2)对各参数信息进行阶段混合并进行数据处理； (3)对 GPU参数移动进行训练优化；本发明能够减少无意义的计算与数据读取开销以及减小读入数据的载入时间，同时通过对参数进行分类，能够减少不必要的通信以及通信次数，且减少通信次数增多带来的固定的通信建立时间，能够实现在 GPU资源较少、质量较低时训练MOE模型。权利要求书2页说明书4页附图1页 CN 114968587 A 2022.08.30 CN 114968587 A 1.并行异构平台计算MOE的训练方法，其特征在于，该训练方法具体步骤如下： (1)获取分布张量并进行分发； (2)对各参数信息进行阶段混合并进行数据处理； (3)对GPU参数移动进行训练优化。 2.根据权利要求1所述的并行异构平台计算MOE的训练方法，其特征在于，步骤(1)中所述分布张量分发具体步骤如下：步骤一：混合专家系统接收外部输入数据以及门的权重数据，并将两组数据通过门计算函数进行运算以获取分布张量；步骤二：通过top ‑K路由函数为分布张量中的每组字段选出最大的k个专家，同时将每一组字段的目标写入目的地张量中，并实时监测各组目标专家字段接收情况；步骤三：当存在目标专家接收字段数量超出上限时，禁止相对应字段继续传输给目标专家，同时将各组字段是否发送在掩码张量中进行记录。 3.根据权利要求1所述的并行异构平台计算MOE的训练方法，其特征在于，步骤(2)中所述阶段混合具体步骤如下：第一步： ZERO并行优化器接收各组参数信息，同时将接收到的各组参数信息按照不共享专家参数、共享切分参数以及共享不切分参数进行分类；第二步：当参数类型为不共享专家参数时， ZERO并行优化器将所有的该参数均匀地分配给每一个进程，每个进程上的专家各不相同，且不对该类参数进行累加操作；第三步：当参数类型为共享切分参数时， ZERO并行优化器对该参数的梯度进行reduce ‑ scatter通信操作，并对该参数进行求和处理，再通过第三阶段的并行方式对该参数进行均匀切分，让每个进程拥有一部分该参数以消去原本的冗余；第四步：当参数类型为共享不切分参数时， ZERO并行优化器对该参数的梯度进行 reduce‑scatter通信操作，并对该参数进行求和处理，再通过第二阶段的并行方式将该参数在优化器中的状态和梯度均匀切分在各个进程。 4.根据权利要求3所述的并行异构平台计算MOE的训练方法，其特征在于，第一步中所述不共享专家参数具体为MoE模组每个专家模型的参数，所述共享切分参数以及共享不切分参数在原本的数据并行中，并且每个进程都拥有一个该参数的拷贝副本。 5.根据权利要求2所述的并行异构平台计算MOE的训练方法，其特征在于，步骤(2)中所述数据处理具体步骤如下： S1：并行异构平台收集计算得到的目的地张量、掩码张量以及输入数据，并通过分发函数将输入的每一个字段最多发送给k个专家以得到每个专家需要的字段，再在所有进程之间交换字段； S2：交换完成后，每个进程内的专家处理收到的字段，之后再恢复原顺序，得到专家输出； S3：并行异构平台通过组合函数将目的地张量、掩码张量以及输入数据进行线性组合以得到与原字段相对应的处理后字段； S4：将专家输出字段与输入字段进行一一对应以得到MOE输出，同时通过输入计算生成经过MLP处理的残余输出与组合权重，之后将残余输出与MOE输出按组合权重进行线性组合，之后将组合结果作为最终结果输出。权　利　要　求　书 1/2 页 2 CN 114968587 A 26.根据权利要求1所述的并行异构平台计算MOE的训练方法，其特征在于，步骤(3)中所述训练优化具体步骤如下： P1：将目前计算必要的参数移动到GPU，当计算完成后，将所有GPU上参数移动回CPU，同时记录每个参数参与计算的顺序以及未来激活数据所占空间大小； P2：当需要将必要的参数移动到GPU时，依据未来激活数据所占空间大小判断是否需要通过驱逐GPU上的参数为将要移动的参数腾出空间； P3：若判断结果为不需要，则直接将该参数移动到GPU上，若判断结果为需要，则检查当前在GPU上的所有参数，通过每个参数参与计算的顺序，驱逐最晚被使用的参数。权　利　要　求　书 2/2 页 3 CN 114968587 A 3

专利 并行异构平台计算MOE的训练方法

专利并行异构平台计算MOE的训练方法