LDM3D-VR:三维虚拟现实的潜在扩散模型
本研究提出了一种潜在扩散模型用于 3D (LDM3D),可以从给定的文本提示生成图像和深度图像数据,使用生成的 RGB 和深度图像可以创建令人沉浸的和交互性 360 度视图体验,有潜力革新娱乐、游戏、建筑和设计等行业。
May, 2023
360 度室内 RGB 全景图像的生成研究中,使用有限的视野图像存在困难,而现有的基于 GAN 的方法面临着提高输出质量和在不同掩码类型下泛化性能较差的障碍。本文提出了一种使用潜在扩散模型(LDM)的 360 度室内 RGB 全景图像外扩模型 IPO-LDM。我们引入了一种新颖的双模潜在扩散结构,在训练过程中利用 RGB 和深度全景数据,但在推理过程中却能出色地对缺少深度信息的 RGB 图像进行外扩。此外,我们还提出了一种新颖的技术,在每个扩散去噪步骤中引入渐进式相机旋转,从而大幅改善全景图的一致性。实验结果表明,我们的 IPO-LDM 不仅在 RGB 全景图像外扩方面显著优于现有方法,还能为不同类型的掩码生成多个多样且结构良好的结果。
Jul, 2023
基于视频扩散模型和几何一致性先验的自动生成方法在 3D 生成方面取得了很大突破,能够生成高质量的网格和 3D 高斯帧,并且在场景级别的新视角合成方面取得了优越的性能表现。
Mar, 2024
我们提出 MVDream,这是一个多视图扩散模型,能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集上预训练的图像扩散模型和从 3D 资源渲染的多视图数据集,所得到的多视图扩散模型可以实现 2D 扩散的概括性和 3D 数据的一致性。该模型可以被应用为 3D 生成的多视图先验,通过 Score Distillation Sampling 来解决现有 2D-lifting 方法中的 3D 一致性问题,从而极大地提高了稳定性。最后,我们展示了多视图扩散模型也可以在少量样本设置下进行微调,用于个性化的 3D 生成,即 DreamBooth3D 应用中,在学习主体身份之后可以保持一致性。
Aug, 2023
本文提出了一种新颖的生成静态和关节 3D 资产的方法,其中核心是一个 3D 自解码器框架,将目标数据集中学习到的属性嵌入潜在空间,然后通过解码来渲染具有一致性的外观和几何体积表示;在不需要摄像头信息的情况下,通过学习来进行更加高效的训练,实现了在各种基准数据集和指标上超越同类别替代方法的影响力。
Jul, 2023
本文提出了一个端到端的,高效的伪立体三维检测框架,引入了 Single-View Diffusion Model (SVDM),通过几次迭代逐渐将正确的信息像素传递到左图像中,这使得整个伪立体三维检测流水线可以端到端地训练,并且可以受益于立体检测器的训练。此外,我们进一步探讨了 SVDM 在无深度立体三维检测中的应用,并将最终框架与大多数立体检测器兼容。在 KITTI 数据集的多项基准测试中,我们实现了新的最先进性能。
Jul, 2023
提出了一种名为 HDR-V-Diff 的高动态范围(HDR)视频重建方法,结合扩散模型以实现 HDR 分布,通过 HDR Latent Diffusion Model(HDR-LDM)学习单个 HDR 帧的分布先验知识,通过 Temporal-Consistent Alignment Module(TCAM)学习时序信息,使用 Zero-Init Cross-Attention(ZiCA)机制整合先验分布和时序信息,从而生成具有真实细节的 HDR 帧。经过广泛实验证明,HDR-V-Diff 在多个代表性数据集上实现了最先进的结果。
Jun, 2024
基于视图空间和潜在扩散模型的 3D 感知图像合成方法,通过压缩潜在表示学习图像的 3D 结构,实现高质量的 3D-consistent 图像合成,无需多视角或 3D 几何的直接监督,不依赖于规范化的相机坐标。
Nov, 2023
通过使用 Diffusion4D 生成真实的 RGBD 样本,本文提出了一个新的训练流程,在室内 NYU Depth v2 数据集和室外 KITTI 数据集上,通过生成样本丰富的有监督训练流程,相对于合成数据和原始数据,在单目深度估计任务中取得了 (8.2%,11.9%) 和 (8.1%,6.1%) 的 RMSE 降低。
Mar, 2024
使用潜在扩散模型 (LDM) 实现了对高分辨率 3D 医学数据的强健异常检测,与使用潜在转换模型 (LTMs) 的方法相比,LDM 方法表现更好、对潜在表示更不敏感、内存缩放更合理以及生成更好的空间异常图。
Jul, 2023