BlockFusion：基于潜在的三平面外推的可扩展三维场景生成

Jan, 2024

BlockFusion：基于潜在的三平面外推的可扩展三维场景生成

BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation

Zhennan Wu, Yang Li, Han Yan, Taizhang Shang, Weixuan Sun...

TL;DRBlockFusion 是一种扩展三维场景的扩散模型，通过三维场景网格的剪裁和特征提取，在潜在三平面空间中进行扩散操作，从而生成高质量、多样化的三维场景。

Abstract

We present blockfusion, a diffusion-based model that generates 3d scenes as unit blocks and seamlessly incorporates new blocks to extend the scene. →

blockfusion 3d scenes latent tri-plane scene generation geometry features

发现论文，激发创造

Compress3D：来自单张图像的 3D 生成的压缩潜空间

通过使用 triplane 自编码器将 3D 模型编码为紧凑的 triplane 潜空间，本文提出了一种有效压缩 3D 几何和纹理信息的方法，并引入了 3D 感知交叉注意机制，从高分辨率的 3D 特征体积中查询特征，提高了潜空间的表示能力。同时利用图像嵌入和形状嵌入作为条件，通过扩散先验模型估计形状嵌入，实现了优于现有算法的性能，且仅在单个 A100 GPU 上耗时 7 秒。

Mar, 2024

使用三面体扩散生成 3D 神经场

本研究提出了一种基于扩散模型的高效的神经场三维生成方法，通过将训练数据转换为连续占据场并将其分解为一组轴对齐的三面体特征表示来实现，训练过程中，采用现有的二维扩散模型对这些特征表示进行训练，生成高质量和多样性的三维神经场，且优于其他三维生成方法。

Nov, 2022

DiffTF++：大词汇量三维生成的三维感知扩散变换器

通过引入一种基于扩散的前馈框架，以及使用改进的三面平面和 3D-aware 转换器、编码器 / 解码器来处理大规模的 3D 资源生成任务，该研究提出了一个更强的 3D 生成模型，以增强多样性、语义和质量。

May, 2024

WildFusion：学习视角空间中的三维感知潜空扩散模型

基于视图空间和潜在扩散模型的 3D 感知图像合成方法，通过压缩潜在表示学习图像的 3D 结构，实现高质量的 3D-consistent 图像合成，无需多视角或 3D 几何的直接监督，不依赖于规范化的相机坐标。

Nov, 2023

Blaze3DM：将三面体表示与扩散相结合用于三维医学反问题求解

Blaze3DM 是一种新颖的方法，通过集成紧凑的三平面神经场和强大的扩散模型，实现快速且高保真度的生成，用于解决 3D 医学逆问题，它在计算效率上显著提高了现有方法的性能（比以前的工作快 22~40 倍）。

May, 2024

Frankenstein：在一台三平面机器上生成语义组合的 3D 场景

Frankenstein 是一个基于扩散的框架，可以在单次传递中生成语义组合的三维场景。与现有方法不同，Frankenstein 同时生成多个分离的形状，每个形状对应于一个语义上有意义的部分。生成的场景可以用三元面张量编码，从中可以解码出多个有组合性的物体形状。Frankenstein 在生成房间内部以及带有自动分离部分的人体角色方面展示了良好的结果。生成的场景可以用于许多下游应用，如部分纹理重建、房间内物体重新摆放或角色服装重新定位。

Mar, 2024

大词汇量三维扩散模型与变压器

使用三平面的三维感知扩散模型与 Transformer 架构，通过改善三维表示、处理几何和纹理的巨大变化、增强复杂对象的三维知识，提出一个能生成大量多样性、丰富语义以及高质量的真实世界三维对象的单一 DiffTF 模型，该模型在 ShapeNet 和 OmniObject3D 的广泛实验中表现出最先进的大量词汇三维对象生成性能。

Sep, 2023

SemCity: 带三层扩散的语义场景生成

我们提出了一种用于在现实世界的室外环境中生成语义场景的 3D 扩散模型 “SemCity”。通过在现实世界的室外数据集上学习扩散模型，我们集中于生成真实室外场景。我们利用三面板表示作为我们扩散模型要学习的场景分布的代理形式，并提出了与我们的三面板扩散模型无缝集成的三面板操作。我们的实验结果表明，与现有的工作相比，我们的三面板扩散模型在真实室外数据集 SemanticKITTI 中展示了有意义的生成结果。同时，我们的三面板操作使得能够在场景中添加、删除或修改对象，并且还能将场景扩展到城市级别。最后，我们通过学习场景分布，评估我们的方法在语义场景补全的完善上的作用。

Mar, 2024

用潜在扩散模型在几秒钟内对 3D 高斯场景进行采样

我们提出了一个通过 2D 图像数据训练的 3D 场景潜在扩散模型，首先设计了一个将多视图图像映射到 3D 高斯斑点并在同时构建这些斑点的压缩潜在表示的自编码器，然后在潜在空间上培训多视图扩散模型，以学习一种高效的生成模型。该方法不需要对象掩码或深度信息，适用于具有任意相机位置的复杂场景。我们在两个大规模复杂真实世界场景数据集 MVImgNet 和 RealEstate10K 上进行了仔细实验。与非潜在扩散模型和早期 NeRF-based 生成模型相比，我们的方法无论是从头开始，从单个输入视图开始还是从稀疏输入视图开始，都能在 0.2 秒内生成 3D 场景，并产生多样且高质量的结果，速度提高了一个数量级。

Jun, 2024

神经场 LDM: 带有分层隐式扩散模型的场景生成

提出了一种名为 NeuralField-LDM 的生成模型，它能够合成复杂的 3D 环境，并取得了比目前现有模型更显著的进步。该模型使用自动编码器训练场景图片，通过特征体素格点表示神经场，并进一步利用潜在自动编码器压缩、映射体素格点至潜在空间，并采用分层扩散模型完成 3D 场景生成管线。此外，展示了如何应用 NeuralField-LDM 在条件场景生成、场景修复和场景风格变化等 3D 内容创作应用领域。

Apr, 2023