3D-TOGO: 面向文本引导的跨类别 3D 物体生成

Dec, 2022

3D-TOGO: 面向文本引导的跨类别 3D 物体生成

3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation

Zutao Jiang, Guangsong Lu, Xiaodan Liang, Jihua Zhu, Wei Zhang...

TL;DR该研究旨在通过新的 3D-TOGO 模型实现通用的基于文本的跨类别的 3D 对象生成。其中包括文本到视图的生成模块和视图到 3D 对象的生成模块，前者可以生成目标 3D 对象的不同视图，后者采用 pixelNeRF 模型从预先生成的视图中获取隐式 3D 神经表示。该模型表现出更好的视图一致性和字幕相似性，能够根据输入文本生成具有良好纹理和无需逐个优化的 3D 对象，并能控制生成的对象的类别、颜色和形状。在最大的 3D 物体数据集（即 ABO）上进行了广泛的实验验证，证明了 3D-TOGO 相比 text-NeRF 和 Dreamfields 能够更好地生成高质量的 3D 对象。

Abstract

text-guided 3d object generation aims to generate 3D objects described by user-defined captions, which paves a flexible way to visualize what we imagined. Although some works have been devoted to solving this cha

text-guided 3d object generation neural radiance field view-to-3d generation caption-guidance

发现论文，激发创造

高保真文本引导的 3D 人脸生成与操作仅通过图像

通过引入文本条件，该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法，利用全局对比学习和细粒度对齐模块两种跨模态对齐技术，实现了更逼真和语义一致的纹理生成。

Aug, 2023

Guide3D：根据文本和图像指导创建 3D 化身

通过结合文字和图像信息，利用扩散模型，我们开发了一种零样本的三维生成模型，能够合成高分辨率纹理网格，实现了将二维图像直接转化为三维空间的功能。

Aug, 2023

ViewDiff：利用文本到图像模型的 3D 一致图像生成

本文提出一种新的方法，利用预训练的文字转图像模型作为先验知识，从真实世界数据中的单个去噪过程中生成多视角图像，并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层，设计出自回归生成方法，在任意视点上呈现更具一致性的 3D 图像。与现有方法相比，我们的方法生成的结果是一致的，并且具有优秀的视觉质量（FID 降低 30%，KID 降低 37%）。

Mar, 2024

基于先验知识引导的文本 - 三维生成模型

本文提出一种新颖的文本生成 3D 模型方法（T2TD），通过引入相关形状或文本信息作为先验知识来提高 3D 模型生成模型的性能，并采用多层变压器结构逐步融合相关形状和文本信息，证明了该方法在 3D 模型生成质量上显着提高，且表现优于现有文本转形状数据集上的 SOTA 方法。

May, 2023

野外文本生成三维内容调查

文献调查了最新的文本生成三维内容的方法，并详细介绍了该领域的背景、数据集、评估指标以及不同的三维表示方法。通过对生成流程的分类和优劣势的分析，为进一步探索基于文本的三维内容创建提供了启示，并指出了未来研究的几个有希望的方向。

May, 2024

3DDesigner: 基于文本引导扩散模型的照片般逼真的 3D 物体生成和编辑

本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法，并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题，取得了较好的效果。

Nov, 2022

生成型人工智能遇上 3D：AIGC 时代的文本到 3D 调查

本研究主要介绍了生成人工智能中的文本导向内容生成，着重探讨其中的文本导向三维技术，提供了一份关于该领域的综合调查报告。该报告介绍了三维数据表示、相关技术及其在不同应用方面的应用，包括头像生成、纹理生成、形状变换和场景生成，以及使用 NeRF 等文本到图像与三维建模技术的新兴方向的最新进展。

May, 2023

Control3D：面向可控的文本到 3D 生成

大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破，仅通过给定的文本提示从零开始创作三维内容。然而，现有的文本到三维技术在创作过程中缺乏一项关键能力：根据用户的需求规范（如草图）对合成的三维内容进行交互式控制和塑造。为了解决这个问题，我们首次尝试在条件上添加手绘草图的文本到三维生成，即 Control3D，以增强用户的可控性。具体而言，我们通过改进的 2D 条件扩散模型（ControlNet）来引导作为 NeRF 参数化的三维场景的学习，以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外，我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致，从而实现了更好的可控文本到三维生成。通过广泛的实验证明，我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。

Nov, 2023

文本到 3D 形状生成

近年来，文本到三维形状生成领域经历了大量的工作和兴趣。这篇综述报告了驱动文本到三维形状生成的底层技术和方法，并对需要的监督数据类型进行了系统分类。最后，讨论了现有方法的局限性，并勾画了未来工作的有希望的方向。

Mar, 2024

TeMO: 文本驱动的多物体网格三维风格化

通过 TeMO 框架，解决了多对象 3D 场景的样式化问题，并利用交叉粗粒度对比监督系统构建细粒度损失，提高了多对象 3D 网格样式化的质量。

Dec, 2023