文本到 3D 形状生成

Mar, 2024

Text-to-3D Shape Generation

Han-Hung Lee, Manolis Savva, Angel X. Chang

TL;DR近年来，文本到三维形状生成领域经历了大量的工作和兴趣。这篇综述报告了驱动文本到三维形状生成的底层技术和方法，并对需要的监督数据类型进行了系统分类。最后，讨论了现有方法的局限性，并勾画了未来工作的有希望的方向。

Abstract

Recent years have seen an explosion of work and interest in text-to-3D shape generation. Much of the progress is driven by advances in 3d representations, large-scale pretraining and →

text-to-3d shape generation 3d representations pretraining representation learning differentiable rendering

发现论文，激发创造

野外文本生成三维内容调查

文献调查了最新的文本生成三维内容的方法，并详细介绍了该领域的背景、数据集、评估指标以及不同的三维表示方法。通过对生成流程的分类和优劣势的分析，为进一步探索基于文本的三维内容创建提供了启示，并指出了未来研究的几个有希望的方向。

May, 2024

生成型人工智能遇上 3D：AIGC 时代的文本到 3D 调查

本研究主要介绍了生成人工智能中的文本导向内容生成，着重探讨其中的文本导向三维技术，提供了一份关于该领域的综合调查报告。该报告介绍了三维数据表示、相关技术及其在不同应用方面的应用，包括头像生成、纹理生成、形状变换和场景生成，以及使用 NeRF 等文本到图像与三维建模技术的新兴方向的最新进展。

May, 2023

基于文本指导的隐式 3D 形状生成

该研究探讨了从文本生成 3D 形状的任务，提出了一种新的文本引导的 3D 形状生成方法，能够在形状与颜色上产生高保真匹配文本描述的形状，技术贡献包括基于词级空间转换器和循环损失的一致性措施，并引入了形状 IMLE 进行生成的多样性。

Mar, 2022

基于先验知识引导的文本 - 三维生成模型

本文提出一种新颖的文本生成 3D 模型方法（T2TD），通过引入相关形状或文本信息作为先验知识来提高 3D 模型生成模型的性能，并采用多层变压器结构逐步融合相关形状和文本信息，证明了该方法在 3D 模型生成质量上显着提高，且表现优于现有文本转形状数据集上的 SOTA 方法。

May, 2023

基于文本的图像和形状编辑与生成：短期调研

本文介绍了最新的文本引导下的图像和形状生成技术，包括生成逼真图像、艺术品和人体姿态，从文本描述自动填充图像和形状等。共概述了 50 份论文，并提出了一些研究思路。

Apr, 2023

用于工程设计优化的大型语言和文本到 3D 模型

本文研究了在工程领域中，利用深度文本到 3D 模型的潜力，将其与计算模拟设计优化中的三维资产相结合，探讨了由于自然语言的不同解释而导致优化框架的挑战，并在航空动力学优化中，成功地利用 Shap-E 和两种不同的表示文本提示的方法，实现自动进化设计优化框架的构建，研究结果表明需要确保生成的设计在应用领域的对象类别内，并需要进一步研究如何提高文本提示变化强度和 3D 设计变化的因果关系。

Jul, 2023

TextCraft: 从文本生成高保真度和多样性形状的零射击方法

TextCraft 使用多分辨率和离散的潜在空间生成高保真且多样化的 3D 模型，过程中使用 CLIP 作为条件，并结合变形器模型和无分类器引导方法，优于其他同领域研究。

Nov, 2022

精确物理驱动的文本到 3D 生成

Phy3DGen 是一种精确的、驱动物理的文本生成 3D 方法，通过分析生成的 3D 形状的固体力学，揭示了现有文本生成 3D 方法生成的 3D 形状在真实世界应用中不符合物理定律的问题，并利用 3D 扩散模型和一个数据驱动的可微分物理层来优化 3D 形状先验，同时实现几何的高效优化和学习 3D 形状的精确物理信息，实验结果表明我们的方法能够兼顾几何的合理性和精确的物理感知，进一步连接 3D 虚拟建模和精确的物理世界。

Mar, 2024

高保真文本引导的 3D 人脸生成与操作仅通过图像

通过引入文本条件，该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法，利用全局对比学习和细粒度对齐模块两种跨模态对齐技术，实现了更逼真和语义一致的纹理生成。

Aug, 2023

Control3D：面向可控的文本到 3D 生成

大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破，仅通过给定的文本提示从零开始创作三维内容。然而，现有的文本到三维技术在创作过程中缺乏一项关键能力：根据用户的需求规范（如草图）对合成的三维内容进行交互式控制和塑造。为了解决这个问题，我们首次尝试在条件上添加手绘草图的文本到三维生成，即 Control3D，以增强用户的可控性。具体而言，我们通过改进的 2D 条件扩散模型（ControlNet）来引导作为 NeRF 参数化的三维场景的学习，以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外，我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致，从而实现了更好的可控文本到三维生成。通过广泛的实验证明，我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。

Nov, 2023