专利基于自适应分配的神经网络加速器实现系统和方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210750313.3 (22)申请日 2022.06.29 (71)申请人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人景乃锋　王鹏程　张浩然　张子涵　蒋剑飞　王琴　 (74)专利代理机构上海汉声知识产权代理有限公司 3123 6 专利代理师胡晶 (51)Int.Cl. G06N 3/063(2006.01) G06F 9/50(2006.01) G06F 15/78(2006.01) (54)发明名称基于自适应分配的神经网络加速器实现系统和方法 (57)摘要本发明提供了一种基于自适应分配的神经网络加速器实现系统和方法，包括：模块M1：构建激活与权重双数据位加速器的整体架构，包括 DRAM与数据加载模块、写回模块、片上缓存模块、有效项生成单元和计算阵列，以及各模块间的连接关系；模块M2：构建激活数据和权重数据有效项表达方式，以及根据该表达方式构建激活数据和权重数据有效项生成单元和移位累加运算单元；模块M3：确定计算阵列中的数据流组织方式，进行数据分组和同步，构建权重数据组合位有效项表达方式。本发明在对激活数据和权重数据进行有效位检测后，通过权重数据组合位有效项的表示方法，减少双数据位串行计算时的有效项个数，缩短了计算周期。权利要求书3页说明书11页附图4页 CN 115081608 A 2022.09.20 CN 115081608 A 1.一种基于自适应分配的神经网络加速器实现系统，其特征在于，包括：模块M1：构建激活与权重双数据位加速器的整体架构，包括DRAM与数据加载模块、写回模块、片上缓存模块、有效项生成单元和计算阵列，以及各模块间的连接关系；模块M2：构建激活数据和权重数据有效项表达方式，以及根据该表达方式构建激活数据和权重数据有效项生成单元和移位累加运算单元；模块M3：确定计算阵列中的数据流组织方式，进行数据分组和同步，构建权重数据组合位有效项表达方式。 2.根据权利要求1所述的基于自适应分配的神经网络加速器实现系统，其特征在于，通过LOAD和STORE指令完成片上缓存模块和DRAM的数据交互，激活数据和权重数据从片上缓存经过有效项生成单元转化为计算阵列能识别的有效项表达形式；计算阵列包括VPU向量计算单元，激活数据向量和权重数据向量部署到VPU， VPU包括基本计算单元PE， PE从VPU的数据池中获取激活数据和权重数据有效项完成移位累加计算。 3.根据权利要求1所述的基于自适应分配的神经网络加速器实现系统，其特征在于，激活数据的每1bit由符号字段s、值字段v和位置字段e表示，非负权重数据以同样的格式表示；对于负数权重，将负数以绝对值的形式加上符号位表示，将权重数据的任意个bit位组合， v字段和e字段修改为组合后的表达方式；有效项检测单元仅向计算阵列输出数据中的非零bit位，激活数据和权重数据的乘加运算通过移位累加运算完成，当权重数据有效项使用单bit 位表示时，权重数据和激活数据有效项的e字段相加作为移位因子，对1进行移位操作得到计算结果，当权重数据有效项采用组合位有效项表示时，权重数据有效项为操作数，激活数据有效项为移位因子， m个激活数据有效项和n个权重数据有效项的移位累加操作通过串行的方式消耗m*n个周期完成。 4.根据权利要求1所述的基于自适应分配的神经网络加速器实现系统，其特征在于，激活数据向量和权重数据向量转化为有效项并分组后分别存入各VPU的有效项数据池， PE从组内的有效项数据池中取出激活数据，并根据激活数据的通道信息选择权重数据，完成移位累加运算，计算的结果经过加法树累加到部分和结果中。 5.根据权利要求1所述的基于自适应分配的神经网络加速器实现系统，其特征在于，激活数据的有效项表示： Ai＝(‑1)s×v×2e 其中， Ai为一个有效项的值， i 为序列号； s为符号字段； v为值字段； e为位置字段；权重数据的有效项表示：激活数据A0由n个有效项组成，权重数据W0由l个有效项组成，按位串行的计算需要n ×l 个时钟周期完成，表达式为：通过组合位有效项的表达方式，将权重数据的有效项数量降低至一半，位串行计算所需的时钟周期数也相应减少至一半，表达式为：权　利　要　求　书 1/3 页 2 CN 115081608 A 2其中， N为激活数据总项数； L 为权重数据总项数； m为数据的权重向量的个数， m＝ l/2；双数据位串行计算数据流：当激活数据的有效项使用单比特的表示形式，而权重的有效项采用组合位有效项的设计时，计算过程表示为：其中，权重数据的v字段作为移位操作的操作数，激活数据和权重数据的e字段之和作为移位因子，每个周期的移位计算结果存入累加单元中，最后得到输出，当权重数据使用单比特有效项的形式表示时，移位操作的操作数变为1。 6.一种基于自适应分配的神经网络加速器实现方法，其特征在于，包括：步骤1：构建激活与权重双数据位加速器的整体架构，包括DRAM与数据加载模块、写回模块、片上缓存模块、有效项生成单元和计算阵列，以及各模块间的连接关系；步骤2：构建激活数据和权重数据有效项表达方式，以及根据该表达方式构建激活数据和权重数据有效项生成单元和移位累加运算单元；步骤3：确定计算阵列中的数据流组织方式，进行数据分组和同步，构建权重数据组合位有效项表达方式。 7.根据权利要求6所述的基于自适应分配的神经网络加速器实现方法，其特征在于，通过LOAD和STORE指令完成片上缓存模块和DRAM的数据交互，激活数据和权重数据从片上缓存经过有效项生成单元转化为计算阵列能识别的有效项表达形式；计算阵列包括VPU向量计算单元，激活数据向量和权重数据向量部署到VPU， VPU包括基本计算单元PE， PE从VPU的数据池中获取激活数据和权重数据有效项完成移位累加计算。 8.根据权利要求6所述的基于自适应分配的神经网络加速器实现方法，其特征在于，激活数据的每1bit由符号字段s、值字段v和位置字段e表示，非负权重数据以同样的格式表示；对于负数权重，将负数以绝对值的形式加上符号位表示，将权重数据的任意个bit位组合， v字段和e字段修改为组合后的表达方式；有效项检测单元仅向计算阵列输出数据中的非零bit位，激活数据和权重数据的乘加运算通过移位累加运算完成，当权重数据有效项使用单bit 位表示时，权重数据和激活数据有效项的e字段相加作为移位因子，对1进行移位操作得到计算结果，当权重数据有效项采用组合位有效项表示时，权重数据有效项为操作数，激活数据有效项为移位因子， m个激活数据有效项和n个权重数据有效项的移位累加操作通过串行的方式消耗m*n个周期完成。 9.根据权利要求6所述的基于自适应分配的神经网络加速器实现方法，其特征在于，激活数据向量和权重数据向量转化为有效项并分组后分别存入各VPU的有效项数据池， PE从组内的有效项数据池中取出激活数据，并根据激活数据的通道信息选择权重数据，完成移位累加运算，计算的结果经过加法树累加到部分和结果中。权　利　要　求　书 2/3 页 3 CN 115081608 A 3

专利 基于自适应分配的神经网络加速器实现系统和方法

专利基于自适应分配的神经网络加速器实现系统和方法