PointOdyssey:一个大规模合成数据集用于长期点跟踪
介绍了 OxUvA 数据集和基准,该数据集用于评估单目标跟踪算法,并对算法在具有平均长度大于两分钟且具有频繁目标对象消失的大规模序列中的定位和检测能力进行了评估。
Mar, 2018
本文介绍了一个基于WordNet结构的大型跟踪数据库,名为GOT-10k。GOT-10k可以提供超过10,000个视频段,1.5百万个手动标记的边界框,由此可以进行深度跟踪的统一训练和稳定评估。此外,该数据库还引入了一种名为one-shot protocol的跟踪器评估方法,可以促进跟踪器的发展。我们在GOT-10k上进行了广泛的跟踪实验,并分析了实验结果。
Oct, 2018
本文提出了Total-Recon方法,用于从长时间单目RGBD视频中重建变形场景并进行自由视点合成,通过场景运动层次分解,实现了快速高效的实现,并最终超越以往的方法。
Apr, 2023
DriveTrack是一个新的基准和数据生成框架,用于实现长距离实景关键点跟踪。该框架自动注释自动驾驶数据集上的关键点轨迹,释放了关键点在实景视频中的新用途,并提高了关键点跟踪器在实世界场景中的准确性。
Dec, 2023
DreamScene4D是一种能够从野外单眼视频中生成多个物体的三维动态场景的方法,通过设计“分解-重组”方案,将视频场景及每个物体的三维运动进行分解,并使用开放词汇遮罩跟踪和适应性图像扩散模型对视频中的物体和背景进行分割、追踪和完整修复。
May, 2024
通过采用不同的运动表示方法,我们引入了一种可同时学习前景和背景动力学的技术,该技术通过把它们的运动分离开来。我们的模型在真实世界的视频训练中生成了前景和背景动作之间协调的视频,并通过引入全局特征来扩展视频生成到更长的序列,以确保平滑的连续性。这种方法在产生展示前景动作和反应背景动态的视频方面优于之前的方法。
May, 2024
我们引入了一个用于评估长距离三维点追踪任务的新基准,TAPVid-3D。通过利用现有素材,我们构建了一个包含4000多个真实世界视频的新基准,其涵盖了三个不同的数据源,涉及各种对象类型、运动模式以及室内外环境。我们提出了一系列度量方法来衡量TAP-3D任务的性能,并使用现有的追踪模型构建了竞争性基线。我们预计这个基准将指导我们更好地理解从单眼视频中精确获得三维运动和表面变形的能力。
Jul, 2024
本研究解决了从无姿态单目相机输入进行在线2D和3D点跟踪的挑战,提出了动态在线单目重建(DynOMo)方法。该方法通过3D高斯点云重建动态场景,利用图像特征重建和一种新颖的相似性增强正则化项,能够在没有对应层次监督的情况下实现点轨迹的生成,显著提升了在线点跟踪的实用性。尽管方法简单,DynOMo却为单目无姿态相机的在线点跟踪建立了首个基准,推动了相关领域的发展。
Sep, 2024
本研究解决了现有基准缺乏综合性的光流、场景流和点跟踪任务的不足,提出了一个多模态的、具有密集注释的大规模基准BlinkVision。该基准包含事件数据和RGB图像,提供每个像素的详细注释,能够支持广泛的实验和研究,推动相关领域的发展。
Oct, 2024