全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210673885.6 (22)申请日 2022.06.15 (71)申请人 南京大学 地址 210093 江苏省南京市 鼓楼区汉口路 22号 (72)发明人 任桐炜 武港山 侯瑞超 许博约  (74)专利代理 机构 南京天翼专利代理有限责任 公司 321 12 专利代理师 奚铭 (51)Int.Cl. G06T 7/246(2017.01) G06T 7/269(2017.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多模态交互和多阶段优化的实时RGBT 目标跟踪方法 (57)摘要 本发明提出了一种基于多模态交互和多阶 段优化的实时RGBT目标跟踪方法, 跟踪模型包括 特征提取模块、 多模态交互模块、 目标分类器以 及结果优化模块; 利用公开的RGBT数据集对跟踪 模型进行训练, 包括离线训练和在线训练两个阶 段。 本发明构建多模态交互模块学习鲁棒的特征 表达, 改善跨模态特征之间的注意力计算方式, 实现两种模态的互补增强, 通过引入门控函数, 有效去除冗余噪声的影 响; 构建多阶段优化模块 结合光流算法和优化模型实现跟踪结目标的精 确重定位, 有效缓解相机抖动、 局部遮挡等因素 造成的影响, 提升跟踪 模型的鲁棒 性和实时性。 权利要求书2页 说明书6页 附图5页 CN 115170605 A 2022.10.11 CN 115170605 A 1.基于多模态 交互和多阶段优化的实时RGBT目标跟踪方法, 其特征在于基于红外光和 可见光两种模态交互, 构建一个目标跟踪模型, 首先利用已有RGBT目标跟踪数据进行离线 训练, 在线跟踪时, 根据首帧确定的跟踪目标在线微调跟踪目标模型参数, 然后对视频序列 进行实时目标跟踪; 所述目标跟踪模型包括特征提取模块、 多模态交互模块、 目标分类器以 及结果优化模块, 实现如下: 步骤1): 将经 过时空配准的热红外和可 见光图像作为目标跟踪模型的输入; 步骤2): 构建共享权重的双流特征提取模块, 所述双流特征提取模块利用轻量化VGG ‑M 的前三层卷积对输入的热红外及可 见光图像提取红外和可 见光的深度特 征; 步骤3): 构建多模态交互融合模块, 对提取的红外和可见光的深度特征, 计算多头跨模 态注意力生成特 征残差图, 以双向增强的方式提升模态质量: 单一跨模态注意的从红外 到可见光模式的判别特 征转换表示 为 公式如下: 上式中, 表示一对从步骤2)中获取的可见光和红外深度特征, R表 示 可见光, T表示红外, 公式(1)中Q, K和V分别表示查询、 键和值, 均经过1 ×1卷积操作进行变 维, dk表示尺度因子, 首先, 建立QR和KT之间的交叉模态关联, 然后通过softmax函数生成注 意矩阵, 最后, 交叉模态特征由注意力矩阵和VT加权生成, 为了兼顾不同空间的注意力分 布, 将单一 跨模态注意扩展到多头结构, 公式如下: MultiHead(QR, KT, VT)=Concat(H1, ..., Hn)WO    (2) Hi=Attention(QRWiQ, KTWiK, VTWiV)    (3) 上式中, 表示第i个注意力头下Q, K和V的权重矩阵, WO表示多头注 意力拼接的权 重矩阵, n表示注意力头的个数, i =1, ..., n, Concat表示级联操作; 得到多头跨模态注意力的特征残差图FT‑R=MultiHead(QR, KT, VT), 根据双向增强的特 性, 根据上述公式反之计算得FR‑T=MultiHead(QT, KR, VR), FR‑T表示多头跨模态注意力的可 见光模式转移到红外模式的判别 力特征, 即得到 两个特征互补残差图FR‑T和FT‑R; 步骤4): 使用门控函数去除步骤3)所得结果中的冗余特征信息, 再利用级联的方式将 增强的多模态特 征聚合; 步骤5): 利用ROIAlign在步骤4)所生成的融合特征 图上进行目标与背景采样, 以目标 为正例, 背景为负例构建训练样本, 用于训练目标分类 器; 步骤6): 构建目标分类器, 由三层全连接层组成, 使用softmax计算二分类损失, 从而更 新模型参数, 目标分类 器输出跟踪预测结果; 步骤7): 构建结果优化模块, 由光流算法和优化模型组成, 光流用于预测目标的大范围 移动, 计算相 邻两帧之间的偏移 量, 对跟踪 结果进行修正, 优化模型则对预测结果进 行二次 回归, 从而获得 更为精确的定位。 2.根据权利要求1所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法, 其 特征在于包括以下步骤: 步骤S1: 构建数据集, 从公开的RGBT目标跟踪数据集中划分出相应数据用于模型训练权 利 要 求 书 1/2 页 2 CN 115170605 A 2和测试; 步骤S2: 构建目标跟踪模型; 步骤S3: 离线模型训练, 加载预训练模型VGG ‑M, 重复步骤1) ‑6), 使用AdamW算法训练目 标跟踪模 型的特征提取模块、 多模态交互模块及目标分类器, 直至损失收敛, 获取训练好的 模型参数, 结果优化模块的偏移预测采用Lucas ‑Kanade光流算法, 优化模型采用RGBT数据 进行微调训练; 步骤S4: 在线训练和跟踪, 具体如下: 步骤S4.1: 获取视频序列第一帧的标签作为初始跟踪目标, 在线微调特征提取模块、 多 模态交互模块以及目标分类器参数, 以便学习目标信息, 然后选取置信度得分最高的区域, 获取初步的跟踪结果; 步骤S4.2: 根据置信度得分判断是否对跟踪结果进行优化, 以这一帧的跟踪结果作为 下一帧的输入; 步骤S4.3: 重复步骤S4.1 ‑S4.2, 逐步计算每一帧目标跟踪结果, 从而实现整体RGBT序 列的目标跟踪。 3.根据权利要求2所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法, 其 特征在于, 步骤S4.2中, 根据置信度得分设计多阶段优化策略, 当置信度得分小于0, 采用光 流算法重新搜索目标, 若偏移量大于T, 则对目标位置进行修正; 当置信度得分大于U, 则采 用优化模型, 获取 更为精确的跟踪结果, 其 余置信度区间, 则不启用优化策略。 4.根据权利要求1所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法, 其 特征在于, 步骤4)中, 构建门控函数去除冗余特征, 结合步骤3)的注意力增强特征, 实现多 模态特征交互和聚合, 具体如下: WR=softmax(Co ncat(SR, ST))    (5) 公式(4)分别计算两种模态的通道注意力向量, 采用SM表示, 其中M为R时表示可见光特 征通道注意力, M为T时表示红外特征通道注意力, XM表示对应模态的原始的深度特征, GAP 表示全局平均池化操作, 表示卷积, σ表示激活函数; 将注意向量SM级联, 再利用 softmax函数对注意力得分进行加权, 利用权重WR抑制冗余通道特征生成 和 然后与步 骤3)所生成的增强特 征FT‑R和FR‑T相加, 获得最终的鲁棒特 征表达 和 如公式(7)。 5.根据权利要求1所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法, 其 特征在于, 步骤7)中, 在红外模态上使用光流算法, 构建特征点, 计算相邻两帧之间的偏移 量, 从而对跟踪结果进 行修正, 优化模 型为一个即插即用的结构, 由像素级相关层和空间感 知的非局部层组成, 模型参数通过公开的红外数据微调训练获取。权 利 要 求 书 2/2 页 3 CN 115170605 A 3

.PDF文档 专利 基于多模态交互和多阶段优化的实时RGBT目标跟踪方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多模态交互和多阶段优化的实时RGBT目标跟踪方法 第 1 页 专利 基于多模态交互和多阶段优化的实时RGBT目标跟踪方法 第 2 页 专利 基于多模态交互和多阶段优化的实时RGBT目标跟踪方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:29:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。