D4D: 一种提升单目深度估计的 RGBD 扩散模型

Mar, 2024

D4D: 一种提升单目深度估计的 RGBD 扩散模型

D4D: An RGBD diffusion model to boost monocular depth estimation

L. Papa, P. Russo, I. Amerini

TL;DR通过使用 Diffusion4D 生成真实的 RGBD 样本，本文提出了一个新的训练流程，在室内 NYU Depth v2 数据集和室外 KITTI 数据集上，通过生成样本丰富的有监督训练流程，相对于合成数据和原始数据，在单目深度估计任务中取得了 (8.2％，11.9％) 和 (8.1％，6.1％) 的 RMSE 降低。

Abstract

Ground-truth rgbd data are fundamental for a wide range of computer vision applications; however, those labeled samples are difficult to collect and time-consuming to produce. A common solution to overcome this l

rgbd data deep learning models diffusion4d monocular depth estimation computer vision

发现论文，激发创造

探索对比学习在扩散模型中的应用于稳健深度估计

最近，由于其优雅的去噪模式和良好的性能，扩散型深度估计方法引起了广泛关注。然而，在实际场景中存在的恶劣条件（如雨天、雪天等）下，它们通常不可靠。在本文中，我们提出了一种称为 D4RD 的新型稳健深度估计方法，其特点是针对扩散模型定制的对比学习模式，以减轻复杂环境中的性能退化。具体而言，我们将知识蒸馏的优势融入对比学习中，构建了 “三位一体” 对比方案。该方案利用前向扩散过程中采样噪声作为自然参考，引导多样场景中的预测噪声朝向更稳定和精确的最优值。此外，我们将噪声水平的 “三位一体” 扩展到更通用的特征和图像水平，建立了多级对比，分摊鲁棒感知的负担到整个网络。在解决复杂场景之前，我们通过三个简单而有效的改进提高了基线扩散模型的稳定性，有助于收敛并消除深度异常值。大量实验证明，D4RD 在合成污染数据集和实际天气条件下超过了现有的最先进解决方案。D4RD 的代码将提供给进行进一步探索和采用的用户。

Apr, 2024

RGB-D 融合：基于图像条件的人型主体深度扩散

RGB-D-Fusion 模型使用条件去噪扩散概率模型从人类主体的低分辨率单眼 RGB 图像生成高分辨率深度图，并引入深度噪声增强技术以提升超分辨率模型的鲁棒性。

Jul, 2023

MonoDiffusion: 基于扩散模型的自监督单目深度估计

通过将其作为迭代去噪过程进行建模，我们引入了一种新的自监督深度估计框架 MonoDiffusion，该模型通过伪真实扩散过程生成伪真实数据以辅助扩散，从而解决了缺乏真实深度数据的问题。通过应用蒸馏损失来指导去噪深度，并使用掩码视觉条件机制增强模型的去噪能力。在 KITTI 和 Make3D 数据集上进行的广泛实验证明了 MonoDiffusion 比现有的最先进竞争对手表现更好。

Nov, 2023

4Diffusion: 多视角视频扩散模型的 4D 生成

我们提出了一种新颖的 4D 生成管道，名为 4Diffusion，旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合，我们设计了一个为多视图视频生成量身定制的统一扩散模型，以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练，我们的扩散模型获得了合理的时间一致性，并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后，我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失，以优化由动态 NeRF 参数化的 4D 表示，从而消除多个扩散模型引起的差异，实现生成空间时间一致的 4D 内容。此外，我们设计了一个锚点损失，以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明，我们的方法相比之前的方法具有更好的性能。

May, 2024

扩散模型在光流和单目深度估计中的惊人有效性

本文展示了使用去噪扩散概率模型进行单目 depth 和 optical flow 估计，通过 Monte Carlo 推理，结合了自监督预训练和合成和真实数据的监督训练，能够在去噪和缺陷数据方面提供技术创新，以及对于不确定性和多模态的处理能力等方面都能取得最先进的效果。DDVM 是本文中提出的模型，相对深度误差为 0.074，比最佳发布方法的 Fl-all outlier rate 高 25%。

Jun, 2023

RenderDiffusion：用于 3D 重建、修补与生成的图像扩散

本文提出了 RenderDiffusion，这是第一个用于 3D 生成和推断的扩散模型，使用仅有的单眼 2D 监督进行训练，并采用新颖的图像去噪架构进行中间的三维表示，以提供强烈归纳结构，同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion，展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外，我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。

Nov, 2022

用于单目深度估计的高分辨率合成 RGB-D 数据集

本文使用 Grand Theft Auto (GTA-V) 生成高分辨率的合成深度数据集 (HRSD)，包含 100,000 张彩色图像和相应的密集地面真实深度图，实验结果表明，使用此数据集训练的 DPT 算法在不同场景下的深度估计精度提高了 9％，进一步利用特征提取模块和注意力损失，可以将准确度提高 15％。

May, 2023

LDM3D-VR：三维虚拟现实的潜在扩散模型

LDM3D-VR 是一套包括 LDM3D-pano 和 LDM3D-SR 的扩散模型，在虚拟现实开发中通过文本提示生成全景 RGBD，并将低分辨率输入变为高分辨率的 RGBD。

Nov, 2023

Zero123-6D：RGB 类别级别 6D 姿态估计的零样本新视角合成

通过将 Diffusion 模型与特征提取技术相结合，本文提出了 Zero123-6D 方法，并在 CO3D 数据集上进行了实验，展示了在类别级别上通过扩展稀疏的纯 RGB 参考视图来提高零侧位姿估计性能、减少数据需求以及消除对深度信息的需求。

Mar, 2024

基于 RBF 权重的 RGB-D 物体检测超插深卷积

通过使用深度传感器的增强现实设备，我们提出了一种实时的 RGB-D 物体检测模型，其中包括深度引导的超卷积和基于上采样的可训练融合层，提高了从原始深度图中提取深度和彩色图像特征的效率和性能，并在 NYU Depth v2 数据集上表现优于其他基于 RGB-D 的物体检测模型，在 SUN RGB-D 数据集上表现相当出色，并且在新的室外 RGB-D 物体检测数据集上也表现出色。同时，我们的模型在来自 CAD 模型和图像生成的多样化合成数据的性能评估中显示出了应用于增强现实的潜力。

Sep, 2023