TAPIR: 使用逐帧初始化和时间细化技术追踪任意点
本文提出了一种改进的 TAP 方法,通过跟踪视频中的任何物理表面,旨在解决现有方法在处理累积误差问题时的不足,并介绍了 TAPIR + 方法,其中包含多粒度摄像机运动检测和基于 CMR 的点轨迹预测等关键组件。该方法在最终测试中得分 0.46,取得了第一名的成绩。
Mar, 2024
通过自我监督的师生设置,使用大规模无标签、无筛选的真实世界数据,以最小的架构改变改进 Tracking-Any-Point (TAP) 模型,实现了在 TAP-Vid 基准测试中的最新性能,超过先前研究结果很大幅度:例如、TAP-Vid-DAVIS 性能从 61.3% 提高到 66.4%,TAP-Vid-Kinetics 从 57.2% 提高到 61.5%。
Feb, 2024
基于对点追踪与目标检测的相似性的观察,本文提出了一种简单而强大的使用 TRansformers 进行 Tracking Any Point(TAPTR)的框架。
Mar, 2024
我们探讨了密集跟踪作为一种表征工具,使机器人能够更快、更通用地从示教中学习,并展示了通过密集跟踪生成的稳健机器人策略能够解决复杂的物体排列任务,如形状匹配、堆叠,甚至全路径跟踪任务,如涂胶并粘合物体,这些示教仅需数分钟即可收集。
Aug, 2023
本文提出了一个名为 TapLab 的简单有效的框架,通过利用压缩视频中的知识来加速实时语义视频分割。通过使用运动矢量进行快速特征变形,以及使用残差解决因运动矢量引入的噪声,TapLab 将现有技术的冗余计算量减少了 3 到 10 倍,并在可控的精度下降的条件下实现了 99.8 FPS。
Mar, 2020
在这项研究中,我们采用轻量级的 Segment Anything Model (SAM) 变体以满足速度要求,并采用微调技术来增强其在外科手术场景中的泛化能力。我们结合在线点追踪器和经过微调的轻量级 SAM 模型构建了一个新颖的框架,用于外科器械分割。在 EndoVis 2015 数据集上,定量结果超过了半监督视频对象分割方法的最新水平,并且可以在单个 GeForce RTX 4060 GPU 上以超过 25 FPS 的推理速度运行。
Mar, 2024
本研究提出了一种基于并行跟踪和验证(PTAV)框架的实时跟踪算法,通过利用多线程技术和跟踪与建图技术的成功经验,跟踪器 T 和验证器 V 在两个独立的线程上并行运行,使得 PTAV 既具有 T 提供的高效率,又具有 V 提供的较强判别能力,实现了较高的实时跟踪和精度表现。
Aug, 2017
基于视觉输入,视觉里程计根据图像序列中的丰富时间上下文和选择的关键点,通过 LEAP 模块进行长期有效的任意点跟踪,有效解决遮挡、动态对象和低纹理区域等挑战,从而提供全轨迹可靠性评估,其前端应用了长期点跟踪的新实践方法,实验证明在各种视觉里程计基准中显著优于现有基线。
Jan, 2024
使用 TTPOINT 轻量且通用的点云网络,在运动识别任务中相比传统基于帧的方法只使用了 1.5% 的计算资源,并通过层次结构抽象本地和全局几何特征。同时,通过使用张量列分解方法,即使在对参数进行 55% 的压缩时,也能保持了 TTPOINT 的高准确性。
Aug, 2023