专利基于多模态交互和多阶段优化的实时RGBT目标跟踪方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210673885.6 (22)申请日 2022.06.15 (71)申请人南京大学地址 210093 江苏省南京市鼓楼区汉口路 22号 (72)发明人任桐炜　武港山　侯瑞超　许博约　 (74)专利代理机构南京天翼专利代理有限责任公司 321 12 专利代理师奚铭 (51)Int.Cl. G06T 7/246(2017.01) G06T 7/269(2017.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多模态交互和多阶段优化的实时RGBT 目标跟踪方法 (57)摘要本发明提出了一种基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，跟踪模型包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块；利用公开的RGBT数据集对跟踪模型进行训练，包括离线训练和在线训练两个阶段。本发明构建多模态交互模块学习鲁棒的特征表达，改善跨模态特征之间的注意力计算方式，实现两种模态的互补增强，通过引入门控函数，有效去除冗余噪声的影响；构建多阶段优化模块结合光流算法和优化模型实现跟踪结目标的精确重定位，有效缓解相机抖动、局部遮挡等因素造成的影响，提升跟踪模型的鲁棒性和实时性。权利要求书2页说明书6页附图5页 CN 115170605 A 2022.10.11 CN 115170605 A 1.基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，其特征在于基于红外光和可见光两种模态交互，构建一个目标跟踪模型，首先利用已有RGBT目标跟踪数据进行离线训练，在线跟踪时，根据首帧确定的跟踪目标在线微调跟踪目标模型参数，然后对视频序列进行实时目标跟踪；所述目标跟踪模型包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块，实现如下：步骤1)：将经过时空配准的热红外和可见光图像作为目标跟踪模型的输入；步骤2)：构建共享权重的双流特征提取模块，所述双流特征提取模块利用轻量化VGG ‑M 的前三层卷积对输入的热红外及可见光图像提取红外和可见光的深度特征；步骤3)：构建多模态交互融合模块，对提取的红外和可见光的深度特征，计算多头跨模态注意力生成特征残差图，以双向增强的方式提升模态质量：单一跨模态注意的从红外到可见光模式的判别特征转换表示为公式如下：上式中，表示一对从步骤2)中获取的可见光和红外深度特征， R表示可见光， T表示红外，公式(1)中Q， K和V分别表示查询、键和值，均经过1 ×1卷积操作进行变维， dk表示尺度因子，首先，建立QR和KT之间的交叉模态关联，然后通过softmax函数生成注意矩阵，最后，交叉模态特征由注意力矩阵和VT加权生成，为了兼顾不同空间的注意力分布，将单一跨模态注意扩展到多头结构，公式如下： MultiHead(QR， KT， VT)＝Concat(H1， ...， Hn)WO (2) Hi＝Attention(QRWiQ， KTWiK， VTWiV) (3) 上式中，表示第i个注意力头下Q， K和V的权重矩阵， WO表示多头注意力拼接的权重矩阵， n表示注意力头的个数， i ＝1， ...， n， Concat表示级联操作；得到多头跨模态注意力的特征残差图FT‑R＝MultiHead(QR， KT， VT)，根据双向增强的特性，根据上述公式反之计算得FR‑T＝MultiHead(QT， KR， VR)， FR‑T表示多头跨模态注意力的可见光模式转移到红外模式的判别力特征，即得到两个特征互补残差图FR‑T和FT‑R；步骤4)：使用门控函数去除步骤3)所得结果中的冗余特征信息，再利用级联的方式将增强的多模态特征聚合；步骤5)：利用ROIAlign在步骤4)所生成的融合特征图上进行目标与背景采样，以目标为正例，背景为负例构建训练样本，用于训练目标分类器；步骤6)：构建目标分类器，由三层全连接层组成，使用softmax计算二分类损失，从而更新模型参数，目标分类器输出跟踪预测结果；步骤7)：构建结果优化模块，由光流算法和优化模型组成，光流用于预测目标的大范围移动，计算相邻两帧之间的偏移量，对跟踪结果进行修正，优化模型则对预测结果进行二次回归，从而获得更为精确的定位。 2.根据权利要求1所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，其特征在于包括以下步骤：步骤S1：构建数据集，从公开的RGBT目标跟踪数据集中划分出相应数据用于模型训练权　利　要　求　书 1/2 页 2 CN 115170605 A 2和测试；步骤S2：构建目标跟踪模型；步骤S3：离线模型训练，加载预训练模型VGG ‑M，重复步骤1) ‑6)，使用AdamW算法训练目标跟踪模型的特征提取模块、多模态交互模块及目标分类器，直至损失收敛，获取训练好的模型参数，结果优化模块的偏移预测采用Lucas ‑Kanade光流算法，优化模型采用RGBT数据进行微调训练；步骤S4：在线训练和跟踪，具体如下：步骤S4.1：获取视频序列第一帧的标签作为初始跟踪目标，在线微调特征提取模块、多模态交互模块以及目标分类器参数，以便学习目标信息，然后选取置信度得分最高的区域，获取初步的跟踪结果；步骤S4.2：根据置信度得分判断是否对跟踪结果进行优化，以这一帧的跟踪结果作为下一帧的输入；步骤S4.3：重复步骤S4.1 ‑S4.2，逐步计算每一帧目标跟踪结果，从而实现整体RGBT序列的目标跟踪。 3.根据权利要求2所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，其特征在于，步骤S4.2中，根据置信度得分设计多阶段优化策略，当置信度得分小于0，采用光流算法重新搜索目标，若偏移量大于T，则对目标位置进行修正；当置信度得分大于U，则采用优化模型，获取更为精确的跟踪结果，其余置信度区间，则不启用优化策略。 4.根据权利要求1所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，其特征在于，步骤4)中，构建门控函数去除冗余特征，结合步骤3)的注意力增强特征，实现多模态特征交互和聚合，具体如下： WR＝softmax(Co ncat(SR， ST)) (5) 公式(4)分别计算两种模态的通道注意力向量，采用SM表示，其中M为R时表示可见光特征通道注意力， M为T时表示红外特征通道注意力， XM表示对应模态的原始的深度特征， GAP 表示全局平均池化操作，表示卷积， σ表示激活函数；将注意向量SM级联，再利用 softmax函数对注意力得分进行加权，利用权重WR抑制冗余通道特征生成和然后与步骤3)所生成的增强特征FT‑R和FR‑T相加，获得最终的鲁棒特征表达和如公式(7)。 5.根据权利要求1所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，其特征在于，步骤7)中，在红外模态上使用光流算法，构建特征点，计算相邻两帧之间的偏移量，从而对跟踪结果进行修正，优化模型为一个即插即用的结构，由像素级相关层和空间感知的非局部层组成，模型参数通过公开的红外数据微调训练获取。权　利　要　求　书 2/2 页 3 CN 115170605 A 3

专利 基于多模态交互和多阶段优化的实时RGBT目标跟踪方法

专利基于多模态交互和多阶段优化的实时RGBT目标跟踪方法