基于先验知识引导的文本 - 三维生成模型
通过引入文本条件,该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法,利用全局对比学习和细粒度对齐模块两种跨模态对齐技术,实现了更逼真和语义一致的纹理生成。
Aug, 2023
近年来,文本到三维形状生成领域经历了大量的工作和兴趣。这篇综述报告了驱动文本到三维形状生成的底层技术和方法,并对需要的监督数据类型进行了系统分类。最后,讨论了现有方法的局限性,并勾画了未来工作的有希望的方向。
Mar, 2024
文献调查了最新的文本生成三维内容的方法,并详细介绍了该领域的背景、数据集、评估指标以及不同的三维表示方法。通过对生成流程的分类和优劣势的分析,为进一步探索基于文本的三维内容创建提供了启示,并指出了未来研究的几个有希望的方向。
May, 2024
该研究探讨了从文本生成 3D 形状的任务,提出了一种新的文本引导的 3D 形状生成方法,能够在形状与颜色上产生高保真匹配文本描述的形状,技术贡献包括基于词级空间转换器和循环损失的一致性措施,并引入了形状 IMLE 进行生成的多样性。
Mar, 2022
该论文提出了一种使用伪字幕训练文本引导的 3D 形状生成器的方法,通过采用低级别的图像正则化,进一步增加几何多样性,可以从给定的文本生成 3D 纹理形状,并且对模型进行了大量的实验分析。
Mar, 2023
通过结合文字和图像信息,利用扩散模型,我们开发了一种零样本的三维生成模型,能够合成高分辨率纹理网格,实现了将二维图像直接转化为三维空间的功能。
Aug, 2023
为了实现快速的文本到 3D 生成,本文提出了 Triplane Attention for text-guided 3D generation (TPA3D),一种基于端到端可训练 GAN 模型。通过对提取的句子和单词级文本特征进行注意力机制,TPA3D 能够生成与细粒度描述相对应的高质量 3D 纹理形状,并呈现出令人印象深刻的计算效率。
Dec, 2023
大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破,仅通过给定的文本提示从零开始创作三维内容。然而,现有的文本到三维技术在创作过程中缺乏一项关键能力:根据用户的需求规范(如草图)对合成的三维内容进行交互式控制和塑造。为了解决这个问题,我们首次尝试在条件上添加手绘草图的文本到三维生成,即 Control3D,以增强用户的可控性。具体而言,我们通过改进的 2D 条件扩散模型(ControlNet)来引导作为 NeRF 参数化的三维场景的学习,以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外,我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致,从而实现了更好的可控文本到三维生成。通过广泛的实验证明,我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。
Nov, 2023
本文提出一种新的方法,利用预训练的文字转图像模型作为先验知识,从真实世界数据中的单个去噪过程中生成多视角图像,并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层,设计出自回归生成方法,在任意视点上呈现更具一致性的 3D 图像。与现有方法相比,我们的方法生成的结果是一致的,并且具有优秀的视觉质量(FID 降低 30%,KID 降低 37%)。
Mar, 2024
本研究主要介绍了生成人工智能中的文本导向内容生成,着重探讨其中的文本导向三维技术,提供了一份关于该领域的综合调查报告。该报告介绍了三维数据表示、相关技术及其在不同应用方面的应用,包括头像生成、纹理生成、形状变换和场景生成,以及使用 NeRF 等文本到图像与三维建模技术的新兴方向的最新进展。
May, 2023