本研究提出了一种名为 TAP 的新型模型,能在视频序列中高效地跟踪任何查询点,包含匹配阶段和细化阶段,且比基准方法表现更优,可快速适用于长且高分辨率的视频序列,具有实时的跟踪速度。
Jun, 2023
本文提出了一种改进的 TAP 方法,通过跟踪视频中的任何物理表面,旨在解决现有方法在处理累积误差问题时的不足,并介绍了 TAPIR + 方法,其中包含多粒度摄像机运动检测和基于 CMR 的点轨迹预测等关键组件。该方法在最终测试中得分 0.46,取得了第一名的成绩。
Mar, 2024
通过自我监督的师生设置,使用大规模无标签、无筛选的真实世界数据,以最小的架构改变改进 Tracking-Any-Point (TAP) 模型,实现了在 TAP-Vid 基准测试中的最新性能,超过先前研究结果很大幅度:例如、TAP-Vid-DAVIS 性能从 61.3% 提高到 66.4%,TAP-Vid-Kinetics 从 57.2% 提高到 61.5%。
Feb, 2024
基于对点追踪与目标检测的相似性的观察,本文提出了一种简单而强大的使用 TRansformers 进行 Tracking Any Point(TAPTR)的框架。
我们探讨了密集跟踪作为一种表征工具,使机器人能够更快、更通用地从示教中学习,并展示了通过密集跟踪生成的稳健机器人策略能够解决复杂的物体排列任务,如形状匹配、堆叠,甚至全路径跟踪任务,如涂胶并粘合物体,这些示教仅需数分钟即可收集。
Aug, 2023
本文提出了一种全面利用时间上下文进行航空追踪的框架,名为 TCTrack,该框架在特征提取和相似度图优化方面使用了时间上下文。实验表明,TCTrack 在四个航空追踪基准测试数据集上的效果令人印象深刻,并且在 NVIDIA Jetson AGX Xavier 上实现了高达 27 FPS 的高速。
Mar, 2022
基于视觉输入,视觉里程计根据图像序列中的丰富时间上下文和选择的关键点,通过 LEAP 模块进行长期有效的任意点跟踪,有效解决遮挡、动态对象和低纹理区域等挑战,从而提供全轨迹可靠性评估,其前端应用了长期点跟踪的新实践方法,实验证明在各种视觉里程计基准中显著优于现有基线。
Jan, 2024
本文提出了一个名为 TapLab 的简单有效的框架,通过利用压缩视频中的知识来加速实时语义视频分割。通过使用运动矢量进行快速特征变形,以及使用残差解决因运动矢量引入的噪声,TapLab 将现有技术的冗余计算量减少了 3 到 10 倍,并在可控的精度下降的条件下实现了 99.8 FPS。
Mar, 2020
本论文提出了一种基于 PTSEFormer 的对象检测方法,该方法引入了上下文框架、时间信息、空间信息来提高模型性能,其通过注意力机制与视觉特征的集成实现时间信息的引入,同时通过 Spatial Transition Awareness Model 实现了上下文特征之间的空间信息的集成,最终在 ImageNet VID 数据集上取得了 88.1% mAP 的表现。
Sep, 2022
提出了一种利用时间上下文的双层框架 (TCTrack),用于实现更强大的现实世界视觉跟踪,并在特征提取和相似度图优化方面进行了改进。