基于先验知识引导的文本 - 三维生成模型

May, 2023

基于先验知识引导的文本 - 三维生成模型

T2TD: Text-3D Generation Model based on Prior Knowledge Guidance

Weizhi Nie, Ruidong Chen, Weijie Wang, Bruno Lepri, Nicu Sebe

TL;DR本文提出一种新颖的文本生成 3D 模型方法（T2TD），通过引入相关形状或文本信息作为先验知识来提高 3D 模型生成模型的性能，并采用多层变压器结构逐步融合相关形状和文本信息，证明了该方法在 3D 模型生成质量上显着提高，且表现优于现有文本转形状数据集上的 SOTA 方法。

Abstract

In recent years, 3d models have been utilized in many applications, such as auto-driver, 3D reconstruction, VR, and AR. However, the scarcity of 3D model data does not meet its practical demands. Thus, generating high-quality 3D models efficiently from →

3d models textual descriptions text-3d generation text-3d knowledge graph multi-layer transformer

发现论文，激发创造

高保真文本引导的 3D 人脸生成与操作仅通过图像

通过引入文本条件，该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法，利用全局对比学习和细粒度对齐模块两种跨模态对齐技术，实现了更逼真和语义一致的纹理生成。

Aug, 2023

文本到 3D 形状生成

近年来，文本到三维形状生成领域经历了大量的工作和兴趣。这篇综述报告了驱动文本到三维形状生成的底层技术和方法，并对需要的监督数据类型进行了系统分类。最后，讨论了现有方法的局限性，并勾画了未来工作的有希望的方向。

Mar, 2024

野外文本生成三维内容调查

文献调查了最新的文本生成三维内容的方法，并详细介绍了该领域的背景、数据集、评估指标以及不同的三维表示方法。通过对生成流程的分类和优劣势的分析，为进一步探索基于文本的三维内容创建提供了启示，并指出了未来研究的几个有希望的方向。

May, 2024

基于文本指导的隐式 3D 形状生成

该研究探讨了从文本生成 3D 形状的任务，提出了一种新的文本引导的 3D 形状生成方法，能够在形状与颜色上产生高保真匹配文本描述的形状，技术贡献包括基于词级空间转换器和循环损失的一致性措施，并引入了形状 IMLE 进行生成的多样性。

Mar, 2022

TAPS3D：基于伪监督的文本引导的三维纹理形状生成

该论文提出了一种使用伪字幕训练文本引导的 3D 形状生成器的方法，通过采用低级别的图像正则化，进一步增加几何多样性，可以从给定的文本生成 3D 纹理形状，并且对模型进行了大量的实验分析。

Mar, 2023

Guide3D：根据文本和图像指导创建 3D 化身

通过结合文字和图像信息，利用扩散模型，我们开发了一种零样本的三维生成模型，能够合成高分辨率纹理网格，实现了将二维图像直接转化为三维空间的功能。

Aug, 2023

TPA3D: 快速文本到 3D 生成的三面关注

为了实现快速的文本到 3D 生成，本文提出了 Triplane Attention for text-guided 3D generation (TPA3D)，一种基于端到端可训练 GAN 模型。通过对提取的句子和单词级文本特征进行注意力机制，TPA3D 能够生成与细粒度描述相对应的高质量 3D 纹理形状，并呈现出令人印象深刻的计算效率。

Dec, 2023

Control3D：面向可控的文本到 3D 生成

大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破，仅通过给定的文本提示从零开始创作三维内容。然而，现有的文本到三维技术在创作过程中缺乏一项关键能力：根据用户的需求规范（如草图）对合成的三维内容进行交互式控制和塑造。为了解决这个问题，我们首次尝试在条件上添加手绘草图的文本到三维生成，即 Control3D，以增强用户的可控性。具体而言，我们通过改进的 2D 条件扩散模型（ControlNet）来引导作为 NeRF 参数化的三维场景的学习，以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外，我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致，从而实现了更好的可控文本到三维生成。通过广泛的实验证明，我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。

Nov, 2023

ViewDiff：利用文本到图像模型的 3D 一致图像生成

本文提出一种新的方法，利用预训练的文字转图像模型作为先验知识，从真实世界数据中的单个去噪过程中生成多视角图像，并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层，设计出自回归生成方法，在任意视点上呈现更具一致性的 3D 图像。与现有方法相比，我们的方法生成的结果是一致的，并且具有优秀的视觉质量（FID 降低 30%，KID 降低 37%）。

Mar, 2024

生成型人工智能遇上 3D：AIGC 时代的文本到 3D 调查

本研究主要介绍了生成人工智能中的文本导向内容生成，着重探讨其中的文本导向三维技术，提供了一份关于该领域的综合调查报告。该报告介绍了三维数据表示、相关技术及其在不同应用方面的应用，包括头像生成、纹理生成、形状变换和场景生成，以及使用 NeRF 等文本到图像与三维建模技术的新兴方向的最新进展。

May, 2023