面向任务的扩散模型压缩
提出了一种名为 DiffI2I 的简单、高效和强大的 I2I 扩散模型,通过引入紧凑的 I2I 先验提取网络(CPEN),动态 I2I 转换器(DI2Iformer)和去噪网络来解决了传统 DM 在某些 I2I 任务中的效率和生成能力方面的问题。通过在各种 I2I 任务上进行广泛实验证明,DiffI2I 在显著减少计算负担的同时达到了 SOTA 水平。
Aug, 2023
通过引入去块知识蒸馏稳定扩散模型(BK-SDMs)的传统架构压缩技术,从而使其可用于通用 T2I 合成,我们从 SDMs 的 U-Net 中消除了几个残差和注意块,显著地减少了参数数量、MACs 和延迟,使用少量的资源进行蒸馏式预训练,使我们的紧凑模型能够模仿原始 SDM,并在零样本 MS-COCO 基准测试中对抗更大的多十亿参数模型,同时还演示了我们轻量级预训练模型在个性化生成中的适用性。
May, 2023
通过对缩放去噪网络骨干和训练集的广泛割离实验,本研究探讨了扩大规模的扩散式文本到图像(T2I)模型的特性,发现在模型扩展方面,跨向量关注的位置和数量对现有 UNet 设计的性能具有差异性,增加 Transformer 模块对于提高文本和图像的对齐比增加通道数量更加参数有效。在数据扩展方面,我们发现训练集的质量和多样性比简单的数据集大小更重要,增加标题密度和多样性可以提高文本和图像的对齐性能和学习效率。最后,我们提供了预测文本和图像对齐性能的缩放函数,函数依赖于模型规模、计算和数据集大小。
Apr, 2024
通过研究强潜在扩散概率模型在 T2I 生成过程中的中间状态,发现图像在早期生成阶段主要由文本引导完成,之后概率模型通过自身信息来完善生成图像的细节,并进一步提出了去除文本引导以加速 T2I 生成过程的方法,加速效果达到 25%+
May, 2024
本文提出了一种基于条件扩散模型的统一框架,用于图像到图像的转换,并在四个具有挑战性的图像到图像任务中测试了这个框架,即上色,修复,裁剪和 JPEG 恢复。我们的简单实现超越了所有任务上的强 GAN 和回归基线,无需任务特定的超参数调整,架构定制或需要任何辅助丢失或先进的新技术。我们揭示了扩散目标中 L2 与 L1 损失的影响,并通过实证研究证明了自我关注在神经结构中的重要性。重要的是,我们提倡一个基于 ImageNet 的统一评估协议,具有人工评估和样本质量得分(FID,Inception Score,预训练 ResNet-50 的分类准确度和与原始图像的感知距离),我们期望这个标准化的评估协议在推进图像到图像翻译研究方面起到作用。最后,我们展示了一个通用的,多任务扩散模型的执行效果与任务特定的专家模型相当或更好。
Nov, 2021
通过对抗学习目标,将单步扩散模型通过整合各种模块成为单一的端到端生成网络,以提高其保留输入图像结构并减少过拟合的能力,我们的模型在非配对设置下优于现有的基于 GAN 和扩散的方法,实现了各种场景转换任务,如昼夜转换和添加 / 删除雾、雪和雨等天气效果;在配对设置中,我们的模型与现有的作品如 Sketch2Photo 和 Edge2Image 的 Control-Net 不相上下,但具有单步推理。
Mar, 2024
通过最大化与参考图像的一致性并惩罚与预训练模型的偏差,我们提出了一种通过最小程度微调预训练模型以实现一致性的 T2I 扩散模型的新型训练目标,称为 “直接一致性优化”。我们的方法不仅简单而且显著提高了个性化 T2I 模型的组合能力,并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后,我们强调必须使用详尽的标题作为参考图像,以进一步增强图像和文本的对齐。我们证明了所提方法在 T2I 主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面(this https URL)中找到。
Feb, 2024
本文提出了一种利用 Image Information Removal 模块来精准地去除原始图像中与颜色和纹理相关的信息,以更好地保存文本不相关内容并避免相同映射问题,从而实现文本到图像编辑的方法。我们的方法在三个基准数据集上达到了最佳的可编辑性 - 保真度的平衡,并且我们的编辑图像比 COCO 上的之前的艺术作品更受注释者的欢迎。
May, 2023
通过模型架构调整、冗余剪枝、全局 - 局部交互注意机制和语义感知监督等方法,本研究提出了一种有效训练轻量级模型、并在有限资源下提高模型速度的方法。
Dec, 2023
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023