从视频扩散先验中学习时间一致的视频深度

Jun, 2024

从视频扩散先验中学习时间一致的视频深度

Learning Temporally Consistent Video Depth from Video Diffusion Priors

Jiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen...

TL;DR该研究旨在通过利用现有视频生成模型中的先验知识，将视频深度估计问题转化为条件生成问题，以降低学习难度并增强泛化能力。通过实证验证，作者提出了一种先优化空间层再优化时间层的训练策略，并通过滑动窗口策略在任意长的视频上进行推断，从而获得更具时间一致性的深度估计结果。实验结果表明，作者提出的 ChronoDepth 方法在估计深度的时间一致性方面优于现有方法，并在深度条件视频生成和新视角合成等实际应用中展示了更一致的视频深度的益处。

Abstract

This work addresses the challenge of video depth estimation, which expects not only per-frame accuracy but, more importantly, cross-frame consistency. Instead of directly developing a depth estimator from scratch, we reformulate the prediction task into a →

video depth estimation conditional generation stable video diffusion temporal consistency chronodepth

发现论文，激发创造

视频深度一致性估计

通过利用传统的运动结构恢复来建立视频中像素的几何约束，使用基于学习的先验 —— 一种单图像深度估计的卷积神经网络，我们给出了一种用于重建密集、几何一致深度的算法。测试时，我们对这个网络进行微调，以满足特定输入视频的几何约束，同时保留其在视频中的其他区域中合成可信深度细节的能力。通过定量验证，我们证明了我们的方法比以前的单目重建方法有更高的准确性和更高的几何一致性。我们的算法能够处理具有轻度动态运动的挑战性手持捕获输入视频。改进重建的质量可以用于场景重建和高级视频视觉效果。

Apr, 2020

视频深度先验及其在视频一致性和传播中的应用

本文提出了一种用于盲视频时间一致性的方法，该方法旨在解决仅在每个视频帧上独立应用图像处理算法导致的时间不一致问题。我们展示了通过在 Deep Video Prior（DVP）视频上训练卷积神经网络实现时间一致性的方法，并针对挑战性的多模态不一致性问题提出了一种经过精心设计的迭代加权训练策略。我们通过 7 个计算机视觉任务的广泛定量和感知实验展示了我们的方法的有效性，并证明了我们的方法在盲视频时间一致性方面优于现有技术水平。

Jan, 2022

神经视频深度稳定器

本研究提出了一种名为神经视频深度稳定器的插拔式深度图像处理框架及其所需的大规模数据集 —— 野外视频深度数据集，该方法通过实现视频中深度的稳定，进一步提高了其精度和效率，具有较高的实际应用价值。

Jul, 2023

稳定扩散先验下的鲁棒单目深度估计

该研究采用一种名为 “Stealing Stable Diffusion (SSD) prior” 的新方法来解决计算机视觉中单目深度估计在挑战性环境下的可靠性问题，通过利用稳定的扩散生成模拟各种挑战条件的合成图像，并引入自我训练机制和 DINOv2 编码器以增强模型在这些环境中的深度估计能力，同时通过引入教师损失来减少模型对教师模型的依赖，通过在 nuScenes 和 Oxford RobotCar 两个具有挑战性的公共数据集上的评估结果验证了该方法的有效性。

Mar, 2024

边缘感知一致性立体视频深度估计

通过使用双目输入，引进左右一致性损失函数，并提出一种保存边缘特征的损失函数来改善测试时训练中的深度模糊问题，提出了一种稠密的双目视频深度估计方法，调研结果表明该模型精度可靠。

May, 2023

SF-V：单向视频生成模型

通过对预训练的视频扩散模型进行对抗训练，我们提出了一种新颖的方法，通过单步合成高质量视频来获得单步视频生成模型，捕捉视频数据中的时间和空间依赖关系，从而大大减少计算成本，为实时视频合成和编辑铺平了道路。

Jun, 2024

鲁棒性一致的视频深度估计

本文提出了一种用于估计一致密集深度图和相机姿态的算法，该算法基于学习的深度先验和几何优化相结合，不需要输入相机姿态，并能够在包括噪声、抖动、运动模糊和卷帘快门失真等多种挑战性条件下实现稳健的重建。

Dec, 2020

利用时间一致性进行实时视频深度估计

本研究提出了一种基于时空信息的深度估计框架，该框架采用卷积长短时记忆和生成对抗学习等技术，能够在实时性和视觉效果之间取得平衡。

Aug, 2019

通过深度视频先验实现视频的无盲区时间一致性

采用卷积神经网络和 Deep Video Prior 相结合的方法，针对视频中存在的时域不一致问题提出了一个新颖的和普遍的解决方案，并在七项计算机视觉任务中证明了该方法的有效性和性能优于现有技术。

Oct, 2020

一次一个：多步体积概率分布扩散用于深度估计

本文提出了一种利用 Volumetric Probability Distribution 及 Markov chain 的深度估计任务多步分布逼近过程的方法，并在 MVS 和 SSC 方面取得了最新的研究成果。

Jun, 2023