基于 LoRA 增强的导向扩散模型蒸馏
通过将 LoRA 蒸馏应用于包括 SD-V1.5、SSD-1B 和 SDXL 的稳定扩散模型,扩展了潜在一致性模型 (LCMs) 的潜力,减少内存消耗,提高图像生成质量,并将通过 LCM 蒸馏得到的 LoRA 参数作为稳定扩散加速模块命名为 LCM-LoRA,该模块可以直接插入各种经过微调的稳定扩散模型或 LoRAs 中,从而成为多样的图像生成任务中可广泛应用的加速器。
Nov, 2023
通过利用预训练的潜在扩散模型的生成特征,我们引入了一种名为 LADD 的新的蒸馏方法,它简化了训练并提高了性能,实现了高分辨率的多纵横比图像合成。我们将 LADD 应用于 Stable Diffusion 3 (8B) 以获得 SD3-Turbo,这是一个快速模型,仅使用四个无导向采样步骤就能达到与现有技术文本到图像生成器相当的性能。此外,我们还系统地研究了其扩展行为,并展示了 LADD 在图像编辑和修复等各种应用中的有效性。
Mar, 2024
通过利用大规模的文本到图像扩散模型进行数据提炼,我们提出了一种更高效的方法,通过精细调整通用化特征的基础生成对抗网络模型,而不是重新训练整个基础模型,并采用简单但有效的秩搜索过程来进行低秩适应,从而显著减少了培训成本和与每个概念相关的存储,使得移动设备能够高效地实现实时高质量的图像编辑。
Jan, 2024
我们提出了一种方法将复杂的多步扩散模型提炼为单步有条件生成对抗网络学生模型,从而大大加速推理过程,同时保持图像质量。我们的方法将扩散提炼解释为一种对应的图像到图像转换任务,使用扩散模型 ODE 轨迹的噪声到图像对。为了进行高效的回归损失计算,我们提出了一种在扩散模型的潜空间中直接操作的感知损失 E-LatentLPIPS,利用增强的集合。此外,我们改进了扩散模型,构建了一个多尺度鉴别器,具有文本对齐损失,建立了一种有效的基于条件生成对抗网络的公式。即使考虑到数据集构建成本,E-LatentLPIPS 也比许多现有的提炼方法更高效。我们证明我们的一步生成器在零样本 COCO 基准测试上优于最先进的一步扩散提炼模型 - DMD、SDXL-Turbo 和 SDXL-Lightning。
May, 2024
我们提出了一种结合潜在空间扩散模型和数据集精炼的潜在数据集精炼方法(LD3M),旨在解决机器学习面临的大型数据集和高分辨率图像生成的挑战,并在多个 ImageNet 子集和高分辨率图像上实验表明,LD3M 在 1 个和 10 个图像每类的情况下,相比最先进的精炼技术,提高了最高 4.8 个百分点和 4.2 个百分点的性能。
Mar, 2024
Low-rank adaptation is used to adapt latent diffusion models, but it is vulnerable to membership inference attacks; therefore, a privacy-preserving solution called Stable PrivateLoRA is proposed to mitigate this issue and effectively defend against MI attacks while generating high-quality images.
Feb, 2024
本文从生成模型的角度重构标签噪声问题,提出了 LRA 扩充扩散模型来处理噪声标签。经过广泛的实验验证,我们的模型在所有标准实际基准数据集上均取得了新的最优结果,在许多情况下,通过结合来自强大的 CLIP 模型的条件信息,我们的方法可以将当前的最优精度提高 10-20 个绝对点。
May, 2023
本文介绍了一种新型的导向方法:基于扩散梯度的直接扰动优化法 (DOODL),通过优化扩散潜变量来实现导向,结果显示,相较于一步分类器导向,DOODL 在多种形式的导向中都具有更高的性能和效果。
Mar, 2023