SDXL:提高高分辨率图像合成的潜在扩散模型
通过降低模型大小和知识蒸馏,我们引入了两种简化的 Stable Diffusion XL 模型 (SSD-1B 和 Segmind-Vega),并证明了在保持高质量生成能力的同时减少模型大小的有效性。
Jan, 2024
通过模型微型化、减少采样步骤和知识蒸馏的双重方法,减小模型延迟,本研究提出了一种在图像生成领域优化扩散模型性能的方法。通过简化 U-Net 和图像解码器的结构并引入一步式 DM 训练技术,利用特征匹配和得分蒸馏,我们实现了两个模型 SDXS-512 和 SDXS-1024,在单个 GPU 上实现了约 100 帧每秒(比 SD v1.5 快 30 倍)和 30 帧每秒(比 SDXL 快 60 倍)的推理速度。此外,我们的训练方法还在图像条件控制方面具有潜在的应用,可以实现高效的图像转换。
Mar, 2024
通过使用 SDXL,我们提出一种低成本的微调技术来改善不同情况下文本生成的准确性,并通过将随机字符添加到原始数据集中来提高模型在生成良好形式视觉文本方面的性能。
Jun, 2024
通过蒸馏 SDXL 模型的知识,我们提出了一种高效的文本到图像综合的潜在扩散模型,其核心是通过设计有效的 U-Net 和自注意力的知识蒸馏策略,使 KOALA 模型在减小模型尺寸的同时,仍保持良好的生成质量,相较于 SDXL 模型有两倍以上的速度,可以在资源有限的环境中成为一种具有成本效益的替代选择。
Dec, 2023
该研究将 LDM 范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将 LDM 应用于文本到视频模型中。
Apr, 2023
我们提出了一种扩散蒸馏方法,基于 SDXL,在一步 / 几步 1024 像素的文本到图像生成任务上达到了新的最先进水平。我们的方法结合了渐进式和对抗性蒸馏来在质量和模态覆盖之间找到平衡。在本文中,我们讨论了理论分析、判别器设计、模型公式和训练技术。我们以 LoRA 和完整的 UNet 权重形式开源了我们蒸馏的 SDXL-Lightning 模型。
Feb, 2024
通过对缩放去噪网络骨干和训练集的广泛割离实验,本研究探讨了扩大规模的扩散式文本到图像(T2I)模型的特性,发现在模型扩展方面,跨向量关注的位置和数量对现有 UNet 设计的性能具有差异性,增加 Transformer 模块对于提高文本和图像的对齐比增加通道数量更加参数有效。在数据扩展方面,我们发现训练集的质量和多样性比简单的数据集大小更重要,增加标题密度和多样性可以提高文本和图像的对齐性能和学习效率。最后,我们提供了预测文本和图像对齐性能的缩放函数,函数依赖于模型规模、计算和数据集大小。
Apr, 2024
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022