WaterMono 是一个用于深度估计和图像增强的新型框架,针对水下场景中的挑战,通过采用教师引导的异常掩模、深度信息结合水下图像成像模型生成增强图像以及旋转蒸馏策略来提高模型的鲁棒性,从而有效地实现了深度估计和图像增强任务。
Jun, 2024
该研究采用一种名为 “Stealing Stable Diffusion (SSD) prior” 的新方法来解决计算机视觉中单目深度估计在挑战性环境下的可靠性问题,通过利用稳定的扩散生成模拟各种挑战条件的合成图像,并引入自我训练机制和 DINOv2 编码器以增强模型在这些环境中的深度估计能力,同时通过引入教师损失来减少模型对教师模型的依赖,通过在 nuScenes 和 Oxford RobotCar 两个具有挑战性的公共数据集上的评估结果验证了该方法的有效性。
Mar, 2024
通过采用基于深度学习的架构,我们能够自动模拟水下图像的效果,通过数据驱动的方式推断其他未知因素导致的降级现象,以估计只有 RGB 图像可用的深度图像。通过与其他纯数据驱动方法的比较,我们通过复杂的图像生成模型成功地对该技术进行了定性和定量评估。
Feb, 2024
从单幅图像恢复 3D 深度是一项基础的计算机视觉任务,本研究提出了一种基于稳定扩散方法的仿射不变单目深度估计方法 Marigold,通过使用先前生成扩散模型中捕获的大量先验知识,该方法在各种数据集上取得了最先进的性能表现。
Dec, 2023
基于 3D 合成环境和 CycleGAN 域转换的数据生成方法与常见的 NYUDepth V2 数据集相比,通过使用不同的真实和模拟数据集训练基于 DenseDepth 结构的深度估计模型,我们评估了模型在新采集的图像和 Husky 机器人的 LiDAR 深度数据上的性能,证明了 GAN 转换的数据在深度估计中可以作为有效的替代真实世界数据的方法。
May, 2024
通过将其作为迭代去噪过程进行建模,我们引入了一种新的自监督深度估计框架 MonoDiffusion,该模型通过伪真实扩散过程生成伪真实数据以辅助扩散,从而解决了缺乏真实深度数据的问题。通过应用蒸馏损失来指导去噪深度,并使用掩码视觉条件机制增强模型的去噪能力。在 KITTI 和 Make3D 数据集上进行的广泛实验证明了 MonoDiffusion 比现有的最先进竞争对手表现更好。
Nov, 2023
本文提出了一种使用立体匹配网络作为代理从合成数据中学习深度并使用预测的立体视差图来监督单目深度估计网络的方法,并提出了不同的策略以确保学习到的深度感知能力在不同领域之间得到很好的转移。通过大量实验证明了该方法在 KITTI 数据集上具有最先进的单目深度估计结果。
Aug, 2018
本文介紹了一種自監督學習的深度估計方法,在使用合成數據和真實數據訓練的同時,利用幾何、時間和語義約束,實現了單目視頻深度估計的新的最先進技術,相較其他自監督和合成方法提高了 15% 到 10% 不等。
Jul, 2020
本研究介绍了 Depth Anything V2,通过使用合成图像替代真实标注图像,提升教师模型的容量,并通过大规模伪标注真实图像来教授学生模型,成功构建了效率更高、准确性更好的多种规模深度估计模型,并构建了通用的评估基准,以促进未来的研究。
利用生成网络的训练策略,我们提出了一种在无监督单目深度估计中具有鲁棒性的扩散模型,并采用分层特征引导的去噪模块来丰富模型的学习能力,进一步探索了图像重投影中的隐式深度,并设计了一种隐式深度一致性损失,从而提高了模型的性能和深度在视频序列中的尺度一致性。实验证明,我们的方法在生成网络模型中脱颖而出,并且具有显著的鲁棒性。