- CVPRDTLLM-VLT: 基于 LLM 的视觉语言跟踪多样化文本生成
Visual Language Tracking (VLT) leverages multi-granularity text descriptions to enhance single object tracking (SOT) by - 传统单目标跟踪的超越:一项综述
单目标跟踪是许多关键领域应用的重要任务,尽管它仍被认为是最具挑战性的视觉任务之一。本文针对单目标跟踪的应用,提出了一种基于新技术和趋势的方法分类,并对广泛使用的跟踪基准中方法的性能进行了比较分析,同时分析了这些方法的优缺点,并提出了非传统技 - BioDrone: 用于稳健视觉的仿生无人机单目标追踪基准
单一物体追踪是计算机视觉中的一个基本问题,本研究提出了 BioDrone,这是第一个基于仿生无人机的视觉基准,旨在通过追踪微小目标和连续帧之间的巨大变化来评估 SOT 方法的鲁棒性,为 SOT 提供了新的鲁棒性视觉基准。
- LiDAR 点云中的小物体追踪:学习目标感知原型和细粒度搜索区域
提出了一种基于 Siamese 网络的 LiDAR 点云中小目标跟踪方法,该方法通过目标感知原型挖掘模块和区域网格划分模块组成。通过学习特征空间中的原型,强调前景点的存在,以便在后续对小目标进行定位。同时,通过恢复搜索区域的细粒度特征,提高 - 统一视觉和视觉 - 语言跟踪的对比学习
单目标跟踪 UVLTrack 是一个统一的跟踪器,可同时处理边界框(BBOX)、自然语言(NL)和两者(NL+BBOX)的参考设置,并具有多种优势,包括模态一致的特征提取器、多模态对比性损失和模态自适应盒子头。在多个数据集上 extensi - 超越视觉线索:同步探索面向目标的语义用于视觉 - 语言追踪
这篇研究论文介绍了一种新颖的追踪器,通过逐步探索目标中心语义来进行视觉 - 语言追踪,其中包括两个关键模块:目标增强模块(TEM)和语义感知模块(SAM),并采用密集匹配损失以增强多模态表示学习。实验证明了该方法的优越性和有效性。
- RTrack: 通过伪框探索加速视觉目标跟踪的收敛
本文介绍了一种名为 RTrack 的新型目标表示基准追踪器,该追踪器利用一组样本点来获取伪边界框,并自动排列这些点以定义空间范围和突出显示局部区域。我们还对训练潜力进行了深入研究,并引入了一对多的前导分配策略,该方法在 GOT-10k 数据 - 无监督的绿色物体跟踪器 (GOT) 无需离线预训练
提出了一种新的单目标追踪方法 —— 绿色物体追踪器 (GOT),它能在不进行离线预训练的情况下实现轻量级高性能追踪,并具有算法透明度。与需要离线预训练的最先进的无监督追踪器相比,GOT 具有较低的计算成本和较小的模型尺寸,在保持竞争追踪准确 - 3D 单目标跟踪的相关金字塔网络
本文提出了一种新颖的相关金字塔网络(CorpNet),采用统一的编码器和运动分解解码器,着重解决了如何从稀疏不完整的点云中学习目标感知表征的中心问题。经过实验证明,该方法在两个常用数据集上均取得了最先进的结果,并且具有实时性。
- IJCAIOSP2B: 一阶段点至框架网络用于 3D 映像跟踪
提出了一种简单而有效的一阶段点对框网络,该网络用于基于点云的 3D 单目标跟踪,其中采用中心感知注意力机制和二进制目标分类器等方法来提升跟踪效果。
- CVPR统一 Transformer 物体跟踪器
该论文介绍了一种名为 Unified Transformer Tracker (UTT) 的模型,通过该模型,研究者们可以在同一框架下解决不同场景下的目标跟踪问题。该模型可以同时进行单目标跟踪(Single Object Tracking) - 利用帧和事件域联合探测物体轨迹
本研究提出了一种多模态方法,可以在单个目标追踪中融合来自帧域和事件域的视觉线索以提高其性能,并通过一种新颖的设计的跨域注意方案有效地和自适应地结合有意义的信息。我们的方法利用自适应平衡方案,其中可以平衡两种领域的贡献。实验证明,所提出的方法 - 联合局部和全局搜索的跟踪:一种基于目标感知的注意力方法
该论文提出了一种新的目标感知注意力机制 (称为 TANet),并将其与跟踪检测框架相结合,以进行联合局部和全局搜索来实现强韧性跟踪。该方法通过提取目标对象补丁和连续视频帧的特征,并将它们串联在一起进入解码器网络,并深入探索候选搜索区域进行跟 - F-Siamese Tracker:基于锥台的双重孪生网络用于 3D 单物体跟踪
本文介绍了一种新型的 F-Siamese Tracker 方法,它通过更加稳健地整合 2D 和 3D 信息来减少冗余搜索空间,从而在 KITTI 跟踪数据集上显著提高了 3D 单目标跟踪和 2D 单目标跟踪性能。
- CVPR稀疏标注数据下的半监督目标检测
使用基于单一物体跟踪和半监督学习的方法,对于 IoU 稀疏注释的目标检测,自动生成密集注释用于训练目标检测器,从而在 Epic-Kitchens 2020 目标检测挑战中获得了第一名和亚军的成绩(在不同测试集上)。
- 基于实例感知跟踪器和动态模型更新的在线多目标跟踪
提出一种实例感知跟踪器,结合单个物体跟踪和卷积神经网络技术,用于多物体跟踪,提高跟踪准确性。在 MOT15 和 MOT16 基准测试上表现最佳。
- ECCV使用双匹配注意力网络进行在线多目标跟踪
本文提出了一种在线多目标跟踪算法,该算法将单目标跟踪和数据关联方法的优点融合在统一框架中,以处理嘈杂的探测和目标之间频繁的交互,并在多目标跟踪基准数据集上展示出较好的性能。
- 长期视觉目标跟踪基准
提出了一种名为 Track Long and Prosper(TLP)的新型长视频数据集和单个目标跟踪基准,包含 50 个高清视频,超过 400 分钟(676K 帧),是现有通用数据集平均持续时间的 20 倍以上,通过对 17 种现有跟踪器