DiverseDream: 借助增强的文本嵌入进行多样化的文本到三维合成
本文提出了一种名为 Grounded-Dreamer 的有效两阶段方法,通过使用预训练的多视角扩散模型,在准确遵循复杂的、构成性的文本提示的同时实现高保真度,生成能够准确遵循复杂、构成性文本提示的 3D 资产。
Apr, 2024
本文提出一种新的方法,利用预训练的文字转图像模型作为先验知识,从真实世界数据中的单个去噪过程中生成多视角图像,并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层,设计出自回归生成方法,在任意视点上呈现更具一致性的 3D 图像。与现有方法相比,我们的方法生成的结果是一致的,并且具有优秀的视觉质量(FID 降低 30%,KID 降低 37%)。
Mar, 2024
通过将生成式文本转图像模型和图像到 3D 方法相结合,如神经辐射场,文本到 3D 建模已经取得了令人兴奋的进展,但目前需要逐个优化来创建 3D 对象。我们提出了一种新的框架 - 摊销文本到 3D(ATT3D)- 通过以统一模型同时训练多个提示来摊销优化,从而在更短的时间内共享提示集的计算,实现了跨提示的知识共享,可以概括未见过的设置,并使文本之间的插值更加平滑,从而实现了新资产和简单动画的 3D 建模。
Jun, 2023
通过使用两阶段的方法 —— 首先使用精调的 2D 文本到图像扩散模型一次性生成稀疏一致的四个结构化视图,然后利用一种新颖的基于 Transformer 的稀疏视图重构器直接回归生成的图像的 NeRF—— 我们提出了 Instant3D,一种新颖的方法,以前馈方式从文本提示中生成高质量、多样化的 3D 资产。通过大量实验证明,我们的方法可以在 20 秒内生成高质量、多样化且无 Janus 问题的 3D 资产,比之前需要 1 到 10 小时的基于优化的方法快两个数量级。
Nov, 2023
Text-to-Avatar generation has made significant progress with DivAvatar, a framework that generates diverse avatars from a single text prompt by fine-tuning a 3D generative model through noise sampling and semantic-aware zoom mechanisms, resulting in avatars of rich and varied appearances.
Feb, 2024
DATID-3D 是一种适用于 3D 生成模型的领域适应方法,采用文本到图像扩散模型,在不收集附加数据的情况下,将源领域的最先进 3D 生成器微调为文本引导的目标领域,从而实现高分辨率、多视角一致的图像合成,并提出并演示了多样的 3D 图像操作。
Nov, 2022
本文提出了一种使用基于文本转图像的扩散模型进行文本到 3D 合成的方法,该方法绕过了需要大规模标记的 3D 数据集和能够去噪的 3D 数据的限制,将 2D 的扩散模型作为先验,通过梯度下降优化 3D 模型(Neural Radiance Field),并使用概率密度蒸馏引入的损失函数将 2D 扩散模型与 3D 模型相结合。这种方法不需要 3D 训练数据,也不需要修改图像扩散模型,证明了使用预训练的图像扩散模型作为先验的有效性。
Sep, 2022
通过使用大型预训练的文本到图像扩散模型生成的图像作为监督信号,我们提出了一种高效的文本到 3D 生成方法,在消费级显卡上仅需约 8 毫秒即可根据文本提示生成一个 3D 资产,并且不需要 3D 训练数据,通过提炼预训练图像扩散模型为高效文本到 3D 生成提供了一种替代方法。
Nov, 2023
通过结合文字和图像信息,利用扩散模型,我们开发了一种零样本的三维生成模型,能够合成高分辨率纹理网格,实现了将二维图像直接转化为三维空间的功能。
Aug, 2023