- 更多关注视觉语言跟踪
本文介绍一种基于 ConvNets 和多模态视觉语言 (VL) 的追踪方法,通过模态混合器(ModaMixer)和不对称的 ConvNet 搜索,学习新颖的统一自适应 VL 表示,仅使用 ConvNets 能够在 SOTA 追踪中表现出色, - CVPRSoccerNet-Tracking:足球视频中的多目标跟踪数据集和基准
在本篇论文中,我们提出了一个可用于多物体跟踪的新型数据集,其包含 200 个 30 秒的序列和一个完整的 45 分钟半场,用于跟踪足球视频中的球员、裁判和球,该数据集带有边界框和跟踪 ID 的完整注释,并能够训练足球领域 MOT 基线并对这 - CVPR统一 Transformer 物体跟踪器
该论文介绍了一种名为 Unified Transformer Tracker (UTT) 的模型,通过该模型,研究者们可以在同一框架下解决不同场景下的目标跟踪问题。该模型可以同时进行单目标跟踪(Single Object Tracking) - CVPR夜间航空追踪的无监督领域自适应
该研究提出了一种新颖的无监督领域自适应框架 UDAT,通过采用唯一的物体发现方法生成训练补丁,使用 Transformer day /night 功能鉴别器生成 Transformer-based bridging layer 来解决两个域 - ICCV通过双分支全 Transformer 网络学习跟踪表示
提出了一种仅基于 Transformer 的连体双支路网络,用于目标跟踪。该方法比第一步使用 CNN 提取特征,然后使用 Transformer 融合它们的最佳方法产生更好或可比的结果,在 GOT-10k 和 VOT2020 基准上优于现有 - 用于实时无人机跟踪的连体变压器金字塔网络
这篇论文介绍了 Siamese Transformer Pyramid Network(SiamTPN)方法,该方法结合了 CNN 和 Transformer 的优势,并针对移动平台的计算资源有限的情况,构建了一个稳健的、针对目标的外观模型 - CVPR使用前向神经网络进行无外貌目标跟踪的挑战
介绍一项用于挑战深度神经网络的视觉测试 $ extit {PathTracker}$,揭示深度卷积神经网络在处理带有障碍物或远距离运动的物体运动路径时的盲点,期待类似于生物视觉的外观无关物体跟踪策略能解决深度神经网络的这一瓶颈。
- ICCV第一人称视角对物体追踪具有挑战性吗?
本研究对第一人称视角(FPV)下的目标物追踪进行了系统性的研究和性能分析,使用了新的性能测量方法和追踪算法测试数据集 TREK-150,表明 FPV 下的物体追踪存在挑战性,需要进行更多的研究以促进 FPV 相关任务发展。
- 通过帧与事件流的协作实现可靠的物体跟踪
本文提出了一个大规模的可见事件跟踪基准测试(VisEvent),由 820 个视频对组成,其中包含以低照度、高速和背景杂波为特点的数据集,将事件流转换为事件图像,并构建了 30 多种基线算法和一个简单但有效的跨模态转换器,以实现可见数据和事 - ICCV显著性相关的目标追踪
该论文提出了一种基于部分追踪策略的物体追踪方法,其中使用细粒度显著性挖掘模块来捕获有区分度的局部信息,结合显著性关联建模模块来得到识别目标状态的有效表达,并在 5 个数据集的广泛实验中取得了优于现有方法的表现。
- CVPRLightTrack: 通过一次架构搜索找到用于目标跟踪的轻量级神经网络
使用神经架构搜索设计轻量级和高效的物体追踪器,实现更好的性能并在资源受限的应用中取得快速运行,从而缩小物体追踪任务中学术模型和工业部署之间的差距。
- CVPR开放式实时追踪
本文提出了一个新的用于在开放世界环境中追踪任何物体的基准测试 ——TAO-OW,并分析了多物体追踪方面的现有努力,并为此任务构建了一个基线,同时强调了未来的挑战。
- 关节动画的运动表示
本文提出了一种新的运动表示方法,能够自动分离物体中的不同部分,并追踪它们的运动,从而可以更好地进行动画制作。该方法基于完全无监督的学习,提取出有意义且一致的区域表示物体的位置、形状和姿态,适用于各种物体,并且性能超过现有的方法。
- CVPR基于相关性学习的多目标跟踪
本文提出了基于局部相关性模块的密集对应和可学习相关算子来增强模型的判别能力和对时间上下文的捕捉能力,从而在多目标跟踪方面取得了最先进的效果,并在 MOT17 数据集上实现了 76.5% 的 MOTA 和 73.6% 的 IDF1。
- TransMOT: 面向多目标跟踪的时空图形变换器
本文提出一种名为 TransMOT 的解决方案,利用强大的图形转换器来有效建模目标的空间和时间互作用,通过将轨迹作为一组稀疏加权图来排列跟踪对象的轨迹,并构建基于图形的空间图形变换器编码器层、时间变换器编码器层和空间图形变换器解码器层。Pr - ICCV重新思考自监督对应关系学习:基于视频帧层面的相似性视角
通过 Video Frame-level Similarity (VFS) 学习实现物体跟踪和视频对象像素分割的通用对应表示
- 学习时空变换器进行视觉跟踪
本文提出一种新的追踪架构,它以编码 - 解码变压器作为核心组件,将目标追踪转化为直接边界框预测问题,从而实现了端到端模型,无需使用任何先前设定的锚点或提案等后处理步骤。
- CVPR自然语言驱动下更加灵活精准的目标跟踪:算法与基准评估
本文提出了一种新的基于自然语言描述的目标跟踪方法,通过建立一个自然语言驱动的跟踪器的基准测试数据集,并提出了两个新的挑战来促进相关研究,旨在提高跟踪性能的灵活性、鲁棒性和准确性。
- 使用平面正方形标记同时进行多视角相机姿态估计和物体跟踪
本文提出了一种新的方法,同时解决了使用固定平面标记来进行多相机三维物体跟踪所面临的问题,能够在低分辨率摄像头下获得高精度的跟踪结果,从而在实现物体实时跟踪的同时,大大降低了计算成本。
- 多时间段城市发展 SpaceNet 数据集
本研究基于多元时间城市发展卫星数据集 (MUDS),利用计算机视觉技术和时间序列分析方法来跟踪建筑物,评估城市化和人造或自然灾害的进程。