DiffTF++:大词汇量三维生成的三维感知扩散变换器
使用三平面的三维感知扩散模型与 Transformer 架构,通过改善三维表示、处理几何和纹理的巨大变化、增强复杂对象的三维知识,提出一个能生成大量多样性、丰富语义以及高质量的真实世界三维对象的单一 DiffTF 模型,该模型在 ShapeNet 和 OmniObject3D 的广泛实验中表现出最先进的大量词汇三维对象生成性能。
Sep, 2023
本研究提出了一种基于扩散模型的高效的神经场三维生成方法,通过将训练数据转换为连续占据场并将其分解为一组轴对齐的三面体特征表示来实现,训练过程中,采用现有的二维扩散模型对这些特征表示进行训练,生成高质量和多样性的三维神经场,且优于其他三维生成方法。
Nov, 2022
提出一种用于三维形状生成的新型扩散 Transformer——DiT-3D,直接利用普通 Transformer 对点云数据进行去噪处理;相较于现有 U-Net 方法,该模型规模更具可扩展性且生成体现更高质量的形状。
Jul, 2023
我们提出了一个新的框架 DiffusionGAN3D,通过结合 3D GANs 和扩散先验来增强文本引导的 3D 领域适应和生成,该方法在领域适应和文本到头像任务中取得了优异的生成质量和效率结果。
Dec, 2023
从文本和图像生成高质量的 3D 模型一直是具有挑战性的,本文介绍了一种直接的 3D 生成模型 (Direct3D),它可以缩放到野外输入图像,而不需要多视图扩散模型或 SDS 优化。我们的方法包括两个主要组成部分:一个直接的 3D 变分自动编码器 (D3D-VAE) 和一个直接的 3D 扩散变换器 (D3D-DiT)。D3D-VAE 将高分辨率的 3D 形状高效编码成紧凑连续的潜在三平面空间,而我们的方法通过半连续表面采样策略直接监督解码几何形状,与以往依赖渲染图像作为监督信号的方法不同。D3D-DiT 对编码的 3D 潜在分布进行建模,并特别设计以融合三个特征图的位置信息,从而实现了可扩展到大规模 3D 数据集的原生 3D 生成模型。此外,我们引入了一种创新的从图像到 3D 的生成流程,结合语义和像素级图像条件,使模型能够生成与提供的条件图像一致的 3D 模型。大量实验证明,我们大规模预训练的 Direct3D 相对于以前的图像到 3D 方法具有更好的生成质量和泛化能力,从而树立了 3D 内容创建的新的最先进水平。
May, 2024
本文提出了一种使用基于文本转图像的扩散模型进行文本到 3D 合成的方法,该方法绕过了需要大规模标记的 3D 数据集和能够去噪的 3D 数据的限制,将 2D 的扩散模型作为先验,通过梯度下降优化 3D 模型(Neural Radiance Field),并使用概率密度蒸馏引入的损失函数将 2D 扩散模型与 3D 模型相结合。这种方法不需要 3D 训练数据,也不需要修改图像扩散模型,证明了使用预训练的图像扩散模型作为先验的有效性。
Sep, 2022
本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法,并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题,取得了较好的效果。
Nov, 2022
本论文提出了一种利用预训练视频扩散模型构建可扩展的 3D 生成模型的新范例。通过使用视频扩散模型作为 3D 数据的知识源,通过微调其多视图生成能力,生成一个大规模的合成多视图数据集,从而训练出一个前馈的 3D 生成模型。该模型在近 300 万个合成多视图数据上训练,能够在几秒钟内从单张图像生成一个 3D 资源,并在与当前最先进的前馈 3D 生成模型相比取得了更好的性能,用户 70%的时间更喜欢我们的结果。
Mar, 2024
通过使用经过微调的 2D 扩散模型的多视角 2.5D 扩散方法,我们填补了 2D 扩散和直接 3D 扩散方法之间的差距,为 3D 内容生成提供了多样性、无模式寻找和高保真度,仅需 10 秒。
Nov, 2023
我们通过使用扩散先验来改进已有的文本生成 3D 模型的技术,提出了一种新的训练方法,并应用了深度监督和密度场正则化来提高几何表示和图像质量。实验结果表明我们的方法在提高真实感和多视角一致性方面优于现有技术。
May, 2023