- 基于多模态混合特征提取和基于 Transformer 的融合的可靠物体跟踪
本研究提出了一种新型的多模态混合跟踪器 (MMHT),利用基于帧事件的数据进行可靠的单目标跟踪,通过使用人工神经网络(ANN)和脉冲神经网络(SNN)构建混合骨干,并使用增强的基于 Transformer 的模块通过注意机制融合多模态特征, - TENet:融合多尺度池化和相互引导融合的 RGB-E 目标追踪
通过改进 RGB 模式的视觉对象跟踪,利用视觉事件相机的输出,特别是对场景运动特别有信息量的输出,本文通过引入一个适应事件数据固有特性的事件 backbone (Pooler),提出了一种高质量的特征表示方法,该方法利用多尺度池化来捕捉事件 - 360VOTS:全景视频中的视觉目标跟踪与分割
360° 全景视频中的视觉目标跟踪和分割是挑战性的,该论文提出了一种新的扩展视野边界表示方法,用于目标定位,并且利用该方法建立了一个适用于全景视觉目标跟踪和分割任务的通用框架。此外,论文还介绍了一个全面的数据集和基准测试集,用于开发和评估该 - LRR: 基于语言驱动的可重采样连续表示抵抗对抗追踪攻击
通过使用感兴趣物体的语义文本指导,建立空间 - 时间连续表示,该方法能够在清晰和对抗数据上实现高准确性,有效抵御不同的 SOTA 对抗跟踪攻击。
- 探索用于高效目标跟踪的动态 Transformer
通过使用动态网络路由所启发,本文提出了一种用于高效追踪的动态转换器框架,通过学习自动配置适当的推理路径来实现更好地利用可用计算预算,从而在相同运行速度下实现更高的性能。
- CVPR一体化视觉目标跟踪:基于基础模型和高效调优
基于首帧的初始外观,视觉目标跟踪旨在定位每一帧的目标对象。根据输入的不同类型,跟踪任务可分为 RGB 跟踪和 RGB+X(如 RGB+N 和 RGB+D)跟踪。本文提出了一个统一多种跟踪任务的通用框架,称之为 OneTracker。OneT - 利用辅助对抗防御网络增强追踪的鲁棒性
通过提出一种名为 DuaLossDef 的额外预处理网络来应对视觉目标跟踪中的对抗攻击方法,并通过对 OTB100、LaSOT 和 VOT2018 基准进行了大量实验,证明了 DuaLossDef 在对抗攻击场景下具有出色的防御鲁棒性,且在 - 从全局表示内存中读取相关特征进行视觉目标跟踪
通过引入关联性注意机制和全局表示记忆,我们提出了一种新的跟踪范式,该范式可以自适应地帮助搜索区域选择最相关的参考特征的历史信息,以减少冗余,提升跟踪性能。
- 相关嵌入式 Transformer 跟踪:单分支框架
开发强大和区分性外观模型一直是视觉目标跟踪领域中的一个长期研究挑战。我们提出了一个受 Transformer 启发的新颖单分支跟踪框架 ——SuperSBT,通过在特征网络的多个层次深度嵌入跨图像特征相关性,从而压制非目标特征,实现目标感知 - X 模态辅助 RGBT 目标跟踪
通过解耦可视目标跟踪为三个不同层次的组成部分,我们提出了一种名为 X-Net 的新型模态协助网络,用于学习鲁棒的多模态特征表示,解决 RGB 和热模态之间巨大差异带来的特征学习障碍,并改善跟踪性能。
- 自底向上追踪滑雪者
该研究使用最大、最全面的计算机视觉滑雪数据集 SkiTB,对滑雪选手的跟踪进行了深入研究,测试了几种视觉目标跟踪算法的适用性,以提高对滑雪表现的理解和分析。
- 基于 BASE 的多目标追踪的可能更好方法
视觉目标跟踪领域主要通过结合简单的跟踪算法和临时方案来实现,而概率跟踪算法在视觉跟踪中却罕见。本文提出了一种基于概率的跟踪器,通过考虑目标运动的距离、利用检测器的置信度和建模非均匀杂乱特征,解决了概率跟踪器在视觉跟踪中的关键问题,取得了与最 - 利用数据增强技术增强基于 Transformer 的跟踪模型
通过系统实验,揭示了现有的常见策略对基于 Transformer 的目标跟踪器的有限效果,提出了两种自定义的数据增强方法,并在两个基于 Transformer 的跟踪器和六个基准测试中证明了这些方法的有效性和数据效率。
- 追踪中使用负样本进行高效训练
通过使用分布式头和目标指示令牌,以及平衡负样本和正样本的训练过程,本研究介绍了一种更高效的训练策略来减轻过拟合并降低计算要求,同时在性能上优于现有方法。
- ICCV融合框和掩码:统一视觉跟踪和分割的多目标框架
本文提出了一种多对象掩膜 - 包围盒综合框架(MITS),用于统一的跟踪和分割。该框架通过引入统一的标识模块和精确的多对象包围盒预测器,从初始化到解码实现同时处理所有目标对象的编码、传播和解码,并在 VOT 和 VOS 基准测试中取得了最先 - BackTrack:候选模板的反向跟踪实现稳健模板更新
提出了一种稳健可靠的方法 BackTrack,通过对过去帧上的候选模板进行反向追踪来量化其置信度,从而基于 BackTrack 的候选置信度来更新模板,并在合适的时间拒绝不可靠的候选,该方法在各种追踪基准上验证了其相对于现有模板更新算法的有 - 高质量跟踪任何事物
HQTrack 是一个面向视频的高质量跟踪框架,主要由视频多目标分割器(VMOS)和掩模细化器(MR)组成,通过 VMOS 将物体掩模传播到当前帧,并利用预训练的 MR 模型来进一步提高跟踪掩模的质量。在 Visual Object Tra - 分布式相机网络的异方差地理空间跟踪
本研究旨在解决使用分布式摄像头网络进行地理空间物体跟踪的问题,界定物体的地理空间坐标和物体位置的不确定性,提出了一个新颖的单个物体地理空间跟踪数据集,并探讨了不确定性校准和通过可微的跟踪器对模型进行微调对性能的影响。
- 通过 3D 模型估计跟踪未知视频对象
本文提出一种新的方法,在视觉目标追踪方面通过 3D 形态和位姿表达,结合可微分渲染技术优化一个新型的损失函数,取得了在三个数据集上追踪刚性物体方面的最新进展。
- CVPRDropMAE: 带有空间注意力丢失的遮蔽自编码器用于跟踪任务
该研究旨在研究在视频上使用掩蔽自动编码器(MAE)进行预训练,从而实现针对视觉对象跟踪(VOT)和视频对象分割(VOS)等基于匹配的下游任务。所提出的 DropMAE 是一种强大的高效的时间匹配学习器,在与 ImageNet-based M