VolumeDiffusion: 灵活的文本到 3D 生成，配备高效的容积编码器

Dec, 2023

VolumeDiffusion: 灵活的文本到 3D 生成，配备高效的容积编码器

VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder

Zhicong Tang, Shuyang Gu, Chunyu Wang, Ting Zhang, Jianmin Bao...

TL;DR该研究介绍了一种创新的 3D 体积编码器，旨在用于文字到 3D 生成。为了扩大扩散模型的训练数据，该研究开发了一种轻量级网络，能够有效地从多视图图像中获取特征体积。然后，使用 3D U-Net 在扩散模型上对 3D 体积进行训练，用于文字到 3D 生成。该研究进一步解决了不准确的物体标题和高维特征体积的挑战。该模型在公共 Objaverse 数据集上训练，展示了从文本提示生成多样且可识别的样本的有希望结果。值得注意的是，它通过文本线索在物体的部分特征上赋予了更好的控制能力，通过将多个概念无缝结合在单个物体中，促进了模型的创造力。这项研究通过引入一种高效、灵活和可扩展的表示方法，对 3D 生成的进展有着显著贡献。可在此 https URL 找到代码。

Abstract

This paper introduces a pioneering 3d volumetric encoder designed for text-to-3d generation. To scale up the training data for the diffusion mode

3d volumetric encoder text-to-3d generation diffusion model object captions objaverse dataset

发现论文，激发创造

ViewDiff：利用文本到图像模型的 3D 一致图像生成

本文提出一种新的方法，利用预训练的文字转图像模型作为先验知识，从真实世界数据中的单个去噪过程中生成多视角图像，并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层，设计出自回归生成方法，在任意视点上呈现更具一致性的 3D 图像。与现有方法相比，我们的方法生成的结果是一致的，并且具有优秀的视觉质量（FID 降低 30%，KID 降低 37%）。

Mar, 2024

Diffusion-SDF: 基于体素扩散的文本到形状生成

该论文提出了一种新的生成式 3D 建模框架 ——Diffusion-SDF，通过使用 SDF 自编码器和 Voxelized Diffusion 模型，能够根据指定的文本描述生成高质量和高度多样化的 3D 形状，其中还包括文本条件下的形状补全和操作。

Dec, 2022

DreamFusion: 使用 2D 扩散进行文本到 3D 转换

本文提出了一种使用基于文本转图像的扩散模型进行文本到 3D 合成的方法，该方法绕过了需要大规模标记的 3D 数据集和能够去噪的 3D 数据的限制，将 2D 的扩散模型作为先验，通过梯度下降优化 3D 模型（Neural Radiance Field），并使用概率密度蒸馏引入的损失函数将 2D 扩散模型与 3D 模型相结合。这种方法不需要 3D 训练数据，也不需要修改图像扩散模型，证明了使用预训练的图像扩散模型作为先验的有效性。

Sep, 2022

3DDesigner: 基于文本引导扩散模型的照片般逼真的 3D 物体生成和编辑

本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法，并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题，取得了较好的效果。

Nov, 2022

DiffusionGAN3D: 结合 3D GANs 和 Diffusion 先验的文本引导的 3D 生成和领域适应

我们提出了一个新的框架 DiffusionGAN3D，通过结合 3D GANs 和扩散先验来增强文本引导的 3D 领域适应和生成，该方法在领域适应和文本到头像任务中取得了优异的生成质量和效率结果。

Dec, 2023

自动解码潜在的三维扩散模型

本文提出了一种新颖的生成静态和关节 3D 资产的方法，其中核心是一个 3D 自解码器框架，将目标数据集中学习到的属性嵌入潜在空间，然后通过解码来渲染具有一致性的外观和几何体积表示；在不需要摄像头信息的情况下，通过学习来进行更加高效的训练，实现了在各种基准数据集和指标上超越同类别替代方法的影响力。

Jul, 2023

StyleAvatar3D: 基于图像文本扩散模型实现高保真 3D 头像生成

本文提出了一种新的方法，结合使用预训练的图像文本扩散模型和基于生成对抗网络的 3D 生成网络，用于生成高质量，风格化的 3D 头像，并在视觉质量和多样性方面优于现有最先进的方法。

May, 2023

大词汇量三维扩散模型与变压器

使用三平面的三维感知扩散模型与 Transformer 架构，通过改善三维表示、处理几何和纹理的巨大变化、增强复杂对象的三维知识，提出一个能生成大量多样性、丰富语义以及高质量的真实世界三维对象的单一 DiffTF 模型，该模型在 ShapeNet 和 OmniObject3D 的广泛实验中表现出最先进的大量词汇三维对象生成性能。

Sep, 2023

Dual3D: 双模多视角潜在扩散下高效一致的文本到 3D 生成

我们提出了 Dual3D，一种新颖的文本到 3D 生成框架，仅需 1 分钟从文本生成高质量的 3D 资产。其中关键组件是双模态多视图潜在扩散模型，通过单个潜在去噪网络可以有效去噪多视图潜在，在 3D 模式下可以生成一致渲染的三面神经表面实现去噪。我们通过预训练的文本到图像潜在扩散模型调整多数模块，避免了从头训练的昂贵代价。同时，我们提出了双模态切换推理策略，仅使用 1/10 的去噪步骤和 3D 模式，在仅 10 秒的时间内成功生成高质量的 3D 资产，同时可以通过高效的纹理细化过程进一步增强 3D 资产的纹理，大量实验证明我们的方法在显著减少生成时间的同时提供了最先进的性能。

May, 2024

VFusion3D: 从视频扩散模型中学习可扩展的三维生成模型

本论文提出了一种利用预训练视频扩散模型构建可扩展的 3D 生成模型的新范例。通过使用视频扩散模型作为 3D 数据的知识源，通过微调其多视图生成能力，生成一个大规模的合成多视图数据集，从而训练出一个前馈的 3D 生成模型。该模型在近 300 万个合成多视图数据上训练，能够在几秒钟内从单张图像生成一个 3D 资源，并在与当前最先进的前馈 3D 生成模型相比取得了更好的性能，用户 70％的时间更喜欢我们的结果。

Mar, 2024