掩蔽变换器应用于扩散模型快速训练
本文提出一种使用掩码自编码器作为扩散模型的条件,进而重复生成预训练视觉表示的方法,具备强大的下游识别任务的初始化能力,高质量图像修复和无需额外努力即可应用于视频分类等许多优点。同时,本文还对设计选择的利弊进行了全面的研究并建立了扩散模型和掩码自编码器之间的联系。
Apr, 2023
提出了一种统一的自监督目标(Unified Masked Diffusion),通过在单一的自编码框架中结合基于补丁和噪声的破坏技术,使用扩散变换器(DiT)培训过程中引入额外的无噪声、高掩膜表示步骤,并在后续时间步骤中使用混合的掩膜和噪声图像,以实现在下游生成和表示学习任务中强大的性能。
Jun, 2024
FastDiT-3D is a novel masked diffusion transformer designed for efficient generation of high-quality 3D point clouds, achieving state-of-the-art performance with reduced training costs and improving multi-category 3D generation using a Mixture-of-Expert approach.
Dec, 2023
本文研究了视觉 transformer 在基于扩散的生成学习中的有效性,并提出了一种新的模型 Diffusion Vision Transformers(DiffiT),该模型在多个条件和无条件综合任务中取得了最新的基准成绩,生成了高保真度图片。
Dec, 2023
本文提出了基于 Transformer 的扩散模型。将常用的 U-Net 骨干网络替换为在潜在块上操作的 Transformer,通过 Gflops 度量前向传递复杂度分析 DiT 的可伸缩性,并证明了高 Gflops DiT-XL/2 模型在 ImageNet 512x512 和 256x256 基准测试中均优于以前的扩散模型,后者在 256x256 基准测试上实现了先进的 FID (2.27)。
Dec, 2022
提出了一种名为 Patch Diffusion 的通用 Patch-wise 训练框架,其核心创新是新的条件分数函数,它在原始图像的 Patch 级别包括 Patch 位置作为附加坐标通道,并且通过训练在多个尺度上对 Patch 大小进行随机和多样化,从而达到显著减少训练时间成本同时提高数据效率以帮助更广泛的用户学习扩散模型。
Apr, 2023
本文介绍了 DiffusionBERT,一种基于离散扩散模型的新型生成遮蔽语言模型,探讨了通过结合扩散模型和预训练去噪语言模型的能力,进一步提高文本生成质量。实验证明,DiffusionBERT 在文本生成方面的表现明显优于现有的扩散模型和先前的生成遮蔽语言模型。
Nov, 2022
本文介绍了一种更快的图像重建框架 LMD,通过潜在遮蔽扩散方法,将高分辨率图像投影和重建在潜在空间中,设计了渐进遮蔽扩散模型,通过三种不同的调度器逐渐提高遮蔽比例,以从简单到困难地重建潜在特征,从而加快模型训练速度,同时保持了原始准确性,并在下游任务中显著提高推理速度。
Dec, 2023
通过引入自监督区分知识来增强扩散变压器 (Diffusion Transformer, DiT) 的训练效果,并在 ImageNet 数据集上进行了广泛实验,实现了训练成本和生成能力之间的竞争平衡。
Mar, 2024