探索纯扩散变压器与三维形状生成
FastDiT-3D is a novel masked diffusion transformer designed for efficient generation of high-quality 3D point clouds, achieving state-of-the-art performance with reduced training costs and improving multi-category 3D generation using a Mixture-of-Expert approach.
Dec, 2023
从文本和图像生成高质量的 3D 模型一直是具有挑战性的,本文介绍了一种直接的 3D 生成模型 (Direct3D),它可以缩放到野外输入图像,而不需要多视图扩散模型或 SDS 优化。我们的方法包括两个主要组成部分:一个直接的 3D 变分自动编码器 (D3D-VAE) 和一个直接的 3D 扩散变换器 (D3D-DiT)。D3D-VAE 将高分辨率的 3D 形状高效编码成紧凑连续的潜在三平面空间,而我们的方法通过半连续表面采样策略直接监督解码几何形状,与以往依赖渲染图像作为监督信号的方法不同。D3D-DiT 对编码的 3D 潜在分布进行建模,并特别设计以融合三个特征图的位置信息,从而实现了可扩展到大规模 3D 数据集的原生 3D 生成模型。此外,我们引入了一种创新的从图像到 3D 的生成流程,结合语义和像素级图像条件,使模型能够生成与提供的条件图像一致的 3D 模型。大量实验证明,我们大规模预训练的 Direct3D 相对于以前的图像到 3D 方法具有更好的生成质量和泛化能力,从而树立了 3D 内容创建的新的最先进水平。
May, 2024
本文研究了视觉 transformer 在基于扩散的生成学习中的有效性,并提出了一种新的模型 Diffusion Vision Transformers(DiffiT),该模型在多个条件和无条件综合任务中取得了最新的基准成绩,生成了高保真度图片。
Dec, 2023
我们提出了 TerDiT,一种针对具有 transformer 的三态扩散模型的量化感知训练(QAT)和有效部署方案,致力于探索大规模 DiT 模型的高效部署策略,展示了从头开始训练极低比特扩散变压器模型的可行性,同时保持与全精度模型相比有竞争力的图像生成能力。
May, 2024
将变换器架构引入扩散任务,对潜在空间图像生成进行了研究,发现 U-Net 架构只在 U-Net 归纳偏差中略有优势,提出了 U 型扩散变换器(U-DiT)模型,通过降低计算量并在自注意力中进行令牌下采样,在性能上超过了 DiT-XL/2。
May, 2024
通过引入一种基于扩散的前馈框架,以及使用改进的三面平面和 3D-aware 转换器、编码器 / 解码器来处理大规模的 3D 资源生成任务,该研究提出了一个更强的 3D 生成模型,以增强多样性、语义和质量。
May, 2024
利用扩散模型的潜在空间来形成 3D 分析的切片序列,并将聚类关注融入 ViT 以聚合 3D CT 扫描中的重复信息,从而利用先进的 Transformer 模型在小型数据集上执行 3D 分类任务,表现出卓越的性能。
Jun, 2024
本文提出了基于 Transformer 的扩散模型。将常用的 U-Net 骨干网络替换为在潜在块上操作的 Transformer,通过 Gflops 度量前向传递复杂度分析 DiT 的可伸缩性,并证明了高 Gflops DiT-XL/2 模型在 ImageNet 512x512 和 256x256 基准测试中均优于以前的扩散模型,后者在 256x256 基准测试上实现了先进的 FID (2.27)。
Dec, 2022
使用三平面的三维感知扩散模型与 Transformer 架构,通过改善三维表示、处理几何和纹理的巨大变化、增强复杂对象的三维知识,提出一个能生成大量多样性、丰富语义以及高质量的真实世界三维对象的单一 DiffTF 模型,该模型在 ShapeNet 和 OmniObject3D 的广泛实验中表现出最先进的大量词汇三维对象生成性能。
Sep, 2023
本文提出一种通用的视觉转换器(Visual Transformer),名为 Simple3D-Former,可用于高效地进行 2D 和 3D 任务的训练和预测,并且相比高度定制的 3D 特有设计实现了惊人的鲁棒性,同时利用大规模现实 2D 图像的预训练权重可免费提高 3D 任务的性能.
Sep, 2022