Mar, 2024

放松休息 ++:利用慢速电视和婴儿电视扩展超越地面真实深度

TL;DR通过自监督学习,本研究提出两个新的数据集:SlowTV 和 CribsTV,用于解决自监督单目深度估计 (SS-MDE) 中缺乏多样性训练数据的问题。这些数据集是从公开可用的 YouTube 视频中精心策划而来,包含总共 200 万个训练帧,涵盖了各种环境,从雪林到海岸公路,豪华别墅,甚至水下珊瑚礁。通过这些数据集,本研究在零样本泛化任务上胜过了所有现有的 SS-MDE 方法甚至某些最先进的有监督方法,并进一步通过多种组件和贡献加强了模型的泛化能力,包括学习相机内参、更强的数据增强、支持帧随机化、灵活的运动估计和基于 Transformer 的现代架构。通过广泛的剔除实验证明了每个组件的有效性。为了促进未来研究的发展,本研究将数据集、代码和预训练模型向公众开放。