May, 2024

基于 Transformer 的 RGB-T 跟踪及通道和空间特征融合

TL;DRRGB-T 跟踪中,如何更好地融合跨模态特征是核心问题。本文利用直接融合跨模态通道与空间特征的方法,提出了 CSTNet,使用 ViT 作为主干,并插入了跨模态通道特征融合模块和跨模态空间特征融合模块,实现了 RGB 和 TIR 特征的直接交互。通过综合实验,CSTNet 在三个公共 RGB-T 跟踪基准上取得了最好的性能。