自动解码潜在的三维扩散模型

Jul, 2023

AutoDecoding Latent 3D Diffusion Models

Evangelos Ntavelis, Aliaksandr Siarohin, Kyle Olszewski, Chaoyang Wang, Luc Van Gool...

TL;DR本文提出了一种新颖的生成静态和关节 3D 资产的方法，其中核心是一个 3D 自解码器框架，将目标数据集中学习到的属性嵌入潜在空间，然后通过解码来渲染具有一致性的外观和几何体积表示；在不需要摄像头信息的情况下，通过学习来进行更加高效的训练，实现了在各种基准数据集和指标上超越同类别替代方法的影响力。

Abstract

We present a novel approach to the generation of static and articulated 3D assets that has a 3d autodecoder at its core. The 3d autodecoder framework embeds properties learned from the target dataset in the laten

3d autodecoder volumetric representation diffusion multi-view image datasets moving people

发现论文，激发创造

WildFusion：学习视角空间中的三维感知潜空扩散模型

基于视图空间和潜在扩散模型的 3D 感知图像合成方法，通过压缩潜在表示学习图像的 3D 结构，实现高质量的 3D-consistent 图像合成，无需多视角或 3D 几何的直接监督，不依赖于规范化的相机坐标。

Nov, 2023

Compress3D：来自单张图像的 3D 生成的压缩潜空间

通过使用 triplane 自编码器将 3D 模型编码为紧凑的 triplane 潜空间，本文提出了一种有效压缩 3D 几何和纹理信息的方法，并引入了 3D 感知交叉注意机制，从高分辨率的 3D 特征体积中查询特征，提高了潜空间的表示能力。同时利用图像嵌入和形状嵌入作为条件，通过扩散先验模型估计形状嵌入，实现了优于现有算法的性能，且仅在单个 A100 GPU 上耗时 7 秒。

Mar, 2024

用潜在扩散模型在几秒钟内对 3D 高斯场景进行采样

我们提出了一个通过 2D 图像数据训练的 3D 场景潜在扩散模型，首先设计了一个将多视图图像映射到 3D 高斯斑点并在同时构建这些斑点的压缩潜在表示的自编码器，然后在潜在空间上培训多视图扩散模型，以学习一种高效的生成模型。该方法不需要对象掩码或深度信息，适用于具有任意相机位置的复杂场景。我们在两个大规模复杂真实世界场景数据集 MVImgNet 和 RealEstate10K 上进行了仔细实验。与非潜在扩散模型和早期 NeRF-based 生成模型相比，我们的方法无论是从头开始，从单个输入视图开始还是从稀疏输入视图开始，都能在 0.2 秒内生成 3D 场景，并产生多样且高质量的结果，速度提高了一个数量级。

Jun, 2024

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

无监督利用三维感知潜在扩散模型对面部特征进行解耦

本文提出了一种新颖的无监督解缠面部表情和身份表示的框架 ——LatentFace，并使用 3D 感知的潜入模型来解决这一问题。该方法在面部表情识别和面部验证等无监督面部表示学习模型中取得了最先进的性能。

Sep, 2023

LN3Diff：可扩展的潜在神经场扩散用于高速 3D 生成

LN3Diff 是一个新颖的框架，通过使用 3D 感知架构和变分自编码器将输入图像编码到结构化、紧凑和 3D 潜空间中，然后通过基于 Transformer 的解码器将潜空间解码为高容量的 3D 神经场，从而在 3D 生成、单目 3D 重建和有条件 3D 生成等各种数据集上展现出卓越的表现，并在推理速度方面超越了现有的 3D 扩散方法。

Mar, 2024

使用 3D 感知扩散模型实现生成新视图综合

使用基于扩散的模型，结合现有的二维扩散骨架和三维特征体，进行三维感知的图像生成，同时具备自回归生成 3D 一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。

Apr, 2023

VolumeDiffusion: 灵活的文本到 3D 生成，配备高效的容积编码器

该研究介绍了一种创新的 3D 体积编码器，旨在用于文字到 3D 生成。为了扩大扩散模型的训练数据，该研究开发了一种轻量级网络，能够有效地从多视图图像中获取特征体积。然后，使用 3D U-Net 在扩散模型上对 3D 体积进行训练，用于文字到 3D 生成。该研究进一步解决了不准确的物体标题和高维特征体积的挑战。该模型在公共 Objaverse 数据集上训练，展示了从文本提示生成多样且可识别的样本的有希望结果。值得注意的是，它通过文本线索在物体的部分特征上赋予了更好的控制能力，通过将多个概念无缝结合在单个物体中，促进了模型的创造力。这项研究通过引入一种高效、灵活和可扩展的表示方法，对 3D 生成的进展有着显著贡献。可在此 https URL 找到代码。

Dec, 2023

Direct3D：基于 3D 潜在扩散变换的可扩展图像到 3D 生成

从文本和图像生成高质量的 3D 模型一直是具有挑战性的，本文介绍了一种直接的 3D 生成模型 (Direct3D)，它可以缩放到野外输入图像，而不需要多视图扩散模型或 SDS 优化。我们的方法包括两个主要组成部分：一个直接的 3D 变分自动编码器 (D3D-VAE) 和一个直接的 3D 扩散变换器 (D3D-DiT)。D3D-VAE 将高分辨率的 3D 形状高效编码成紧凑连续的潜在三平面空间，而我们的方法通过半连续表面采样策略直接监督解码几何形状，与以往依赖渲染图像作为监督信号的方法不同。D3D-DiT 对编码的 3D 潜在分布进行建模，并特别设计以融合三个特征图的位置信息，从而实现了可扩展到大规模 3D 数据集的原生 3D 生成模型。此外，我们引入了一种创新的从图像到 3D 的生成流程，结合语义和像素级图像条件，使模型能够生成与提供的条件图像一致的 3D 模型。大量实验证明，我们大规模预训练的 Direct3D 相对于以前的图像到 3D 方法具有更好的生成质量和泛化能力，从而树立了 3D 内容创建的新的最先进水平。

May, 2024

神经场 LDM: 带有分层隐式扩散模型的场景生成

提出了一种名为 NeuralField-LDM 的生成模型，它能够合成复杂的 3D 环境，并取得了比目前现有模型更显著的进步。该模型使用自动编码器训练场景图片，通过特征体素格点表示神经场，并进一步利用潜在自动编码器压缩、映射体素格点至潜在空间，并采用分层扩散模型完成 3D 场景生成管线。此外，展示了如何应用 NeuralField-LDM 在条件场景生成、场景修复和场景风格变化等 3D 内容创作应用领域。

Apr, 2023