BlockFusion:基于潜在的三平面外推的可扩展三维场景生成
通过使用 triplane 自编码器将 3D 模型编码为紧凑的 triplane 潜空间,本文提出了一种有效压缩 3D 几何和纹理信息的方法,并引入了 3D 感知交叉注意机制,从高分辨率的 3D 特征体积中查询特征,提高了潜空间的表示能力。同时利用图像嵌入和形状嵌入作为条件,通过扩散先验模型估计形状嵌入,实现了优于现有算法的性能,且仅在单个 A100 GPU 上耗时 7 秒。
Mar, 2024
本研究提出了一种基于扩散模型的高效的神经场三维生成方法,通过将训练数据转换为连续占据场并将其分解为一组轴对齐的三面体特征表示来实现,训练过程中,采用现有的二维扩散模型对这些特征表示进行训练,生成高质量和多样性的三维神经场,且优于其他三维生成方法。
Nov, 2022
通过引入一种基于扩散的前馈框架,以及使用改进的三面平面和 3D-aware 转换器、编码器 / 解码器来处理大规模的 3D 资源生成任务,该研究提出了一个更强的 3D 生成模型,以增强多样性、语义和质量。
May, 2024
基于视图空间和潜在扩散模型的 3D 感知图像合成方法,通过压缩潜在表示学习图像的 3D 结构,实现高质量的 3D-consistent 图像合成,无需多视角或 3D 几何的直接监督,不依赖于规范化的相机坐标。
Nov, 2023
Blaze3DM 是一种新颖的方法,通过集成紧凑的三平面神经场和强大的扩散模型,实现快速且高保真度的生成,用于解决 3D 医学逆问题,它在计算效率上显著提高了现有方法的性能(比以前的工作快 22~40 倍)。
May, 2024
Frankenstein 是一个基于扩散的框架,可以在单次传递中生成语义组合的三维场景。与现有方法不同,Frankenstein 同时生成多个分离的形状,每个形状对应于一个语义上有意义的部分。生成的场景可以用三元面张量编码,从中可以解码出多个有组合性的物体形状。Frankenstein 在生成房间内部以及带有自动分离部分的人体角色方面展示了良好的结果。生成的场景可以用于许多下游应用,如部分纹理重建、房间内物体重新摆放或角色服装重新定位。
Mar, 2024
使用三平面的三维感知扩散模型与 Transformer 架构,通过改善三维表示、处理几何和纹理的巨大变化、增强复杂对象的三维知识,提出一个能生成大量多样性、丰富语义以及高质量的真实世界三维对象的单一 DiffTF 模型,该模型在 ShapeNet 和 OmniObject3D 的广泛实验中表现出最先进的大量词汇三维对象生成性能。
Sep, 2023
我们提出了一种用于在现实世界的室外环境中生成语义场景的 3D 扩散模型 “SemCity”。通过在现实世界的室外数据集上学习扩散模型,我们集中于生成真实室外场景。我们利用三面板表示作为我们扩散模型要学习的场景分布的代理形式,并提出了与我们的三面板扩散模型无缝集成的三面板操作。我们的实验结果表明,与现有的工作相比,我们的三面板扩散模型在真实室外数据集 SemanticKITTI 中展示了有意义的生成结果。同时,我们的三面板操作使得能够在场景中添加、删除或修改对象,并且还能将场景扩展到城市级别。最后,我们通过学习场景分布,评估我们的方法在语义场景补全的完善上的作用。
Mar, 2024
我们提出了一个通过 2D 图像数据训练的 3D 场景潜在扩散模型,首先设计了一个将多视图图像映射到 3D 高斯斑点并在同时构建这些斑点的压缩潜在表示的自编码器,然后在潜在空间上培训多视图扩散模型,以学习一种高效的生成模型。该方法不需要对象掩码或深度信息,适用于具有任意相机位置的复杂场景。我们在两个大规模复杂真实世界场景数据集 MVImgNet 和 RealEstate10K 上进行了仔细实验。与非潜在扩散模型和早期 NeRF-based 生成模型相比,我们的方法无论是从头开始,从单个输入视图开始还是从稀疏输入视图开始,都能在 0.2 秒内生成 3D 场景,并产生多样且高质量的结果,速度提高了一个数量级。
Jun, 2024
提出了一种名为 NeuralField-LDM 的生成模型,它能够合成复杂的 3D 环境,并取得了比目前现有模型更显著的进步。该模型使用自动编码器训练场景图片,通过特征体素格点表示神经场,并进一步利用潜在自动编码器压缩、映射体素格点至潜在空间,并采用分层扩散模型完成 3D 场景生成管线。此外,展示了如何应用 NeuralField-LDM 在条件场景生成、场景修复和场景风格变化等 3D 内容创作应用领域。
Apr, 2023