Mar, 2024

高效稳健的全局追踪

TL;DR我们提出了一种新颖的测试时优化方法,可高效且鲁棒地跟踪视频中的任何像素。通过引入一种新颖的可逆形变网络 CaDeX ++,我们改进了效率和鲁棒性,并在架构设计中增加了更强的几何偏差,并利用视觉基础模型提供的归纳偏差。我们的系统利用单目深度估计来表示场景几何,并通过整合 DINOv2 的长期语义来调节优化过程,实验结果表明,与最先进的基于优化的方法 OmniMotion 相比,在训练速度(超过 10 倍)、鲁棒性和跟踪准确度方面得到了显著的改进。