Context-TAP：跟踪任何点并使用空间上下文特征

Jun, 2023

Context-TAP：跟踪任何点并使用空间上下文特征

Context-TAP: Tracking Any Point Demands Spatial Context Features

Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yitong Dong, Yijin Li...

TL;DR该研究提出了一种新的视频点追踪框架 Context-TAP，通过聚合空间上下文特征，有效地提高了点轨迹的准确性。

Abstract

We tackle the problem of tracking any point (TAP) in videos, which specifically aims at estimating persistent long-term trajectories of query points in videos. Previous methods attempted to estimate these traject

tracking any point long-term trajectories video point tracking spatial context features context-tap

发现论文，激发创造

TAPIR: 使用逐帧初始化和时间细化技术追踪任意点

本研究提出了一种名为 TAP 的新型模型，能在视频序列中高效地跟踪任何查询点，包含匹配阶段和细化阶段，且比基准方法表现更优，可快速适用于长且高分辨率的视频序列，具有实时的跟踪速度。

Jun, 2023

2023 ICCV 第一届感知测试挑战赛点追踪任务解决方案

本文提出了一种改进的 TAP 方法，通过跟踪视频中的任何物理表面，旨在解决现有方法在处理累积误差问题时的不足，并介绍了 TAPIR + 方法，其中包含多粒度摄像机运动检测和基于 CMR 的点轨迹预测等关键组件。该方法在最终测试中得分 0.46，取得了第一名的成绩。

Mar, 2024

BootsTAP：跟踪的引导式训练

通过自我监督的师生设置，使用大规模无标签、无筛选的真实世界数据，以最小的架构改变改进 Tracking-Any-Point (TAP) 模型，实现了在 TAP-Vid 基准测试中的最新性能，超过先前研究结果很大幅度：例如、TAP-Vid-DAVIS 性能从 61.3% 提高到 66.4%，TAP-Vid-Kinetics 从 57.2% 提高到 61.5%。

Feb, 2024

TAPTR：使用 Transformers 作为检测器的任意点跟踪

基于对点追踪与目标检测的相似性的观察，本文提出了一种简单而强大的使用 TRansformers 进行 Tracking Any Point（TAPTR）的框架。

Mar, 2024

RoboTAP：用于少样本视觉模仿的任意点追踪

我们探讨了密集跟踪作为一种表征工具，使机器人能够更快、更通用地从示教中学习，并展示了通过密集跟踪生成的稳健机器人策略能够解决复杂的物体排列任务，如形状匹配、堆叠，甚至全路径跟踪任务，如涂胶并粘合物体，这些示教仅需数分钟即可收集。

Aug, 2023

TCTrack: 航空跟踪的时间上下文

本文提出了一种全面利用时间上下文进行航空追踪的框架，名为 TCTrack，该框架在特征提取和相似度图优化方面使用了时间上下文。实验表明，TCTrack 在四个航空追踪基准测试数据集上的效果令人印象深刻，并且在 NVIDIA Jetson AGX Xavier 上实现了高达 27 FPS 的高速。

Mar, 2022

LEAP-VO: 长期有效的任意点追踪视觉里程计

基于视觉输入，视觉里程计根据图像序列中的丰富时间上下文和选择的关键点，通过 LEAP 模块进行长期有效的任意点跟踪，有效解决遮挡、动态对象和低纹理区域等挑战，从而提供全轨迹可靠性评估，其前端应用了长期点跟踪的新实践方法，实验证明在各种视觉里程计基准中显著优于现有基线。

Jan, 2024

TapLab：利用压缩领域知识进行语义视频分割的快速框架

本文提出了一个名为 TapLab 的简单有效的框架，通过利用压缩视频中的知识来加速实时语义视频分割。通过使用运动矢量进行快速特征变形，以及使用残差解决因运动矢量引入的噪声，TapLab 将现有技术的冗余计算量减少了 3 到 10 倍，并在可控的精度下降的条件下实现了 99.8 FPS。

Mar, 2020

PTSEFormer: 渐进式时空增强 Transformer 用于视频目标检测

本论文提出了一种基于 PTSEFormer 的对象检测方法，该方法引入了上下文框架、时间信息、空间信息来提高模型性能，其通过注意力机制与视觉特征的集成实现时间信息的引入，同时通过 Spatial Transition Awareness Model 实现了上下文特征之间的空间信息的集成，最终在 ImageNet VID 数据集上取得了 88.1% mAP 的表现。

Sep, 2022

基于时间上下文的真实世界视觉跟踪

提出了一种利用时间上下文的双层框架 (TCTrack)，用于实现更强大的现实世界视觉跟踪，并在特征提取和相似度图优化方面进行了改进。

Aug, 2023