IT3D:通过显式视图合成改进的文本生成 3D 方法
本文提出一种新的方法,利用预训练的文字转图像模型作为先验知识,从真实世界数据中的单个去噪过程中生成多视角图像,并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层,设计出自回归生成方法,在任意视点上呈现更具一致性的 3D 图像。与现有方法相比,我们的方法生成的结果是一致的,并且具有优秀的视觉质量(FID 降低 30%,KID 降低 37%)。
Mar, 2024
通过使用大型预训练的文本到图像扩散模型生成的图像作为监督信号,我们提出了一种高效的文本到 3D 生成方法,在消费级显卡上仅需约 8 毫秒即可根据文本提示生成一个 3D 资产,并且不需要 3D 训练数据,通过提炼预训练图像扩散模型为高效文本到 3D 生成提供了一种替代方法。
Nov, 2023
在本文中,我们通过考虑视频生成器,使用高斯喷洒的 3D 重建算法,减少 2D 生成器网络的评估次数 10-100 倍,实现更高效的处理管道,提供更高质量、更少几何不一致性和更多可用的 3D 资源。
Feb, 2024
基于视图空间和潜在扩散模型的 3D 感知图像合成方法,通过压缩潜在表示学习图像的 3D 结构,实现高质量的 3D-consistent 图像合成,无需多视角或 3D 几何的直接监督,不依赖于规范化的相机坐标。
Nov, 2023
我们提出了 Dual3D,一种新颖的文本到 3D 生成框架,仅需 1 分钟从文本生成高质量的 3D 资产。其中关键组件是双模态多视图潜在扩散模型,通过单个潜在去噪网络可以有效去噪多视图潜在,在 3D 模式下可以生成一致渲染的三面神经表面实现去噪。我们通过预训练的文本到图像潜在扩散模型调整多数模块,避免了从头训练的昂贵代价。同时,我们提出了双模态切换推理策略,仅使用 1/10 的去噪步骤和 3D 模式,在仅 10 秒的时间内成功生成高质量的 3D 资产,同时可以通过高效的纹理细化过程进一步增强 3D 资产的纹理,大量实验证明我们的方法在显著减少生成时间的同时提供了最先进的性能。
May, 2024
本文提出了一种名为 Grounded-Dreamer 的有效两阶段方法,通过使用预训练的多视角扩散模型,在准确遵循复杂的、构成性的文本提示的同时实现高保真度,生成能够准确遵循复杂、构成性文本提示的 3D 资产。
Apr, 2024
提出一种名为 Bootstrap3D 的新框架,它能自动生成任意数量的多视图图像,为多视图扩散模型的训练提供帮助。还引入了数据生成流水线和训练时间步骤重新安排策略,并通过大量实验证明 Bootstrap3D 能生成具有高质量、美学性、图像 - 文本对齐度和视图一致性的多视图图像。
May, 2024
通过结合文字和图像信息,利用扩散模型,我们开发了一种零样本的三维生成模型,能够合成高分辨率纹理网格,实现了将二维图像直接转化为三维空间的功能。
Aug, 2023
使用基于扩散的模型,结合现有的二维扩散骨架和三维特征体,进行三维感知的图像生成,同时具备自回归生成 3D 一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。
Apr, 2023
本文提出了一种使用基于文本转图像的扩散模型进行文本到 3D 合成的方法,该方法绕过了需要大规模标记的 3D 数据集和能够去噪的 3D 数据的限制,将 2D 的扩散模型作为先验,通过梯度下降优化 3D 模型(Neural Radiance Field),并使用概率密度蒸馏引入的损失函数将 2D 扩散模型与 3D 模型相结合。这种方法不需要 3D 训练数据,也不需要修改图像扩散模型,证明了使用预训练的图像扩散模型作为先验的有效性。
Sep, 2022