Open-DDVM: 光流估计的扩展与复制
本文展示了使用去噪扩散概率模型进行单目 depth 和 optical flow 估计,通过 Monte Carlo 推理,结合了自监督预训练和合成和真实数据的监督训练,能够在去噪和缺陷数据方面提供技术创新,以及对于不确定性和多模态的处理能力等方面都能取得最先进的效果。DDVM 是本文中提出的模型,相对深度误差为 0.074,比最佳发布方法的 Fl-all outlier rate 高 25%。
Jun, 2023
通过使用 Diffusion4D 生成真实的 RGBD 样本,本文提出了一个新的训练流程,在室内 NYU Depth v2 数据集和室外 KITTI 数据集上,通过生成样本丰富的有监督训练流程,相对于合成数据和原始数据,在单目深度估计任务中取得了 (8.2%,11.9%) 和 (8.1%,6.1%) 的 RMSE 降低。
Mar, 2024
Flow-Guided Diffusion model significantly enhances temporal consistency and inpainting quality in video inpainting by employing optical flow and a model-agnostic flow-guided latent interpolation technique.
Nov, 2023
通过将其作为迭代去噪过程进行建模,我们引入了一种新的自监督深度估计框架 MonoDiffusion,该模型通过伪真实扩散过程生成伪真实数据以辅助扩散,从而解决了缺乏真实深度数据的问题。通过应用蒸馏损失来指导去噪深度,并使用掩码视觉条件机制增强模型的去噪能力。在 KITTI 和 Make3D 数据集上进行的广泛实验证明了 MonoDiffusion 比现有的最先进竞争对手表现更好。
Nov, 2023
DDFlow 是一种基于数据净化的方法,可从未标注的数据中学习光流估计。该方法使用可靠的预测来指导学生网络学习光流,并能够为被遮挡像素进行光流估计,从而实现了更高的准确性。在 Flying Chairs、MPI Sintel、KITTI 2012 和 2015 基准测试中,DDFlow 的性能显著优于所有现有的无监督学习方法,同时实现了实时运行。
Feb, 2019
将模型驱动和数据驱动方法相结合,通过组合显式基于偏微分方程的方法与卷积神经网络,实现了光流场修复任务的联合架构,表现优于显式基线、生成对抗网络和概率扩散基线,成为光流场修复领域的最新技术。
May, 2024
LDM3D-VR 是一套包括 LDM3D-pano 和 LDM3D-SR 的扩散模型,在虚拟现实开发中通过文本提示生成全景 RGBD,并将低分辨率输入变为高分辨率的 RGBD。
Nov, 2023
使用一种通用的、无任务依赖的扩散模型,采用对数尺度深度参数化来联合建模室内和室外场景,通过视野的条件处理尺度模糊,通过训练中合成视野的方法来推广到训练数据中较有限的相机内参,通过使用更多样化的训练混合和有效的扩散参数化,我们的方法 DMD(Diffusion for Metric Depth)相对误差(REL)在零样本室内数据集上减少 25%,在零样本室外数据集上减少 33%,只使用了少量去噪步骤。
Dec, 2023
生物医学领域中细胞分割和跟踪在癌症研究、药物开发和发育生物学中起到至关重要的作用,为了自动化这些过程,提出了基于深度学习的分割和跟踪方法,尤其是面对生物医学成像领域中有限的标注数据,我们提出了生物医学视频扩散模型(BVDM),它能生成逼真的细胞显微视频,并通过大规模合成数据集提高细胞分割和跟踪模型的性能。
Mar, 2024
本研究介绍了一种高效有效的方法,MeDM,利用预训练的图像扩散模型进行视频到视频的翻译,保持一致的时间流。该提出的框架可以从场景位置信息(如常规 G 缓冲区)渲染视频,或对在真实场景中捕获的视频进行文本引导编辑。我们采用显式光流构建了一种实用编码方式,对生成的帧施加物理约束并调节独立的逐帧评分。通过利用这种编码,确保生成的视频在时间上保持一致可以被看作是一个具有闭合形式解的优化问题。为确保与稳定扩散的兼容性,我们还提出了一种方法修改潜在空间扩散模型中的观察空间评分。值得注意的是,MeDM 不需要对扩散模型进行微调或测试时优化。通过对各种基准测试进行广泛的定性、定量和主观实验证明了该方法的有效性和优越性。
Aug, 2023