UniFL：通过统一反馈学习改善稳定扩散

Apr, 2024

UniFL：通过统一反馈学习改善稳定扩散

UniFL: Improve Stable Diffusion via Unified Feedback Learning

Jiacheng Zhang, Jie Wu, Yuxi Ren, Xin Xia, Huafeng Kuang...

TL;DRUniFL 是一个统一框架，利用反馈学习全面增强扩散模型，在提升生成模型质量和加速推理方面表现出优越性能。

Abstract

diffusion models have revolutionized the field of image generation, leading to the proliferation of high-quality models and diverse downstream applications. However, despite these significant advancements, the current competitive solutions still suffer from several limitations, includi

diffusion models unifl feedback learning visual quality inference speed

发现论文，激发创造

UniControl：一种用于自然环境中可控视觉生成的统一扩散模型

UniControl 是一种新的可控生成基础模型，集成了多种可控因素，实现了基于任意语言提示的像素级精确图像生成，并通过多任务学习，使其具有适应不同可控条件的能力，实验证明其性能优于其他同类型模型。

May, 2023

无文本扩散模型是否学习到有辨别力的视觉表征

一个统一的表示学习模型，通过使用扩散模型、U-Net、注意机制和反馈机制，能够在多个任务上竞争最先进的无监督图像表示学习方法。

Nov, 2023

UniDiff: 利用生成和判别式学习推进视觉 - 语言模型

本文提出了一个名为 UniDiff 的多模态模型，它整合了图像 - 文本对比学习（ITC），文本条件的图像合成学习（IS）和双向语义一致性建模（RSC），并通过在来自 CLIP 和扩散模型的视觉特征上利用 RSC 来有效地学习对齐的语义。该模型在视觉语言检索和文本到图像生成方面展示了显着的增强能力，为个性化建模建立了一个强大的流水线，并成为该领域未来比较的基准。

Jun, 2023

SDXL：提高高分辨率图像合成的潜在扩散模型

SDXL 是一种潜在扩散模型，用于文本到图像的合成，其使用更大的 UNet 骨干网络以及多重新颖的调制方式和改进模型，且其结果竞争力与黑箱最先进的图像生成器相比具有显著提高。

Jul, 2023

稳定扩散 XL 的渐进式知识蒸馏以层级损失

通过降低模型大小和知识蒸馏，我们引入了两种简化的 Stable Diffusion XL 模型 (SSD-1B 和 Segmind-Vega)，并证明了在保持高质量生成能力的同时减少模型大小的有效性。

Jan, 2024

Phoenix：联邦式生成扩散模型

本文提出了一种新颖的基于联邦学习技术在多个数据源上训练去噪扩散概率模型的方法，已证明在保持数据多样性，保护隐私和减少数据源之间通信方面优于默认的扩散模型，并提供了一些新的可能性。

Jun, 2023

从扩散反馈中强化学习：图像搜索的 Q*

大型视觉 - 语言模型通过非微调或数据增强实现个性化能力增强。本文提出了两种使用模型无关学习进行图像生成的模型，通过将语义先验与生成能力进行对齐。其中一种方法是 RLDF（Reinforcement Learning from Diffusion Feedback），通过保持先前的奖励函数进行视觉模仿。另一种方法是噪声扩散梯度优化方法。这些方法的核心是我们提出的连续语义引导的特殊 CFG 编码。RLDF 仅使用单张输入图像且无文本输入，在不同领域包括零售、体育和农业生成了具有类一致性和强大视觉多样性的高质量图像。项目网站可在此 https URL 找到。

Nov, 2023

DiffFlow：基于评分扩散模型和生成对抗网络的统一 SDE 框架

建议了一个统一理论框架，将基于得分的扩散模型和生成对抗网络合并起来，提出了一个名为 “鉴别器去噪扩散流” 的新 SDE，通过调整不同得分项之间的相对权重，可以在 SDMs 和 GANs 之间实现平滑转换，同时保持边际分布不变，提供了新的算法，并具有在高样本质量和快速采样速度之间实现灵活权衡的潜力。

Jul, 2023

利用扩散先验将生成模型和判别模型融合为统一的视觉感知模型

Vermouth 是一个简单而有效的框架，由预训练的稳定扩散（SD）模型、能够集成分层表示的统一头部（U-head）和提供鉴别先验的调整专家构成，通过广泛的比较评估，在零样本基于草图的图像检索（ZS-SBIR）、少样本分类和开放词汇语义分割任务上展示了我们方法的效果，展示了扩散模型作为强大学习器的潜力，证明了它们在提供信息丰富和鲁棒的视觉表示方面的重要性。

Jan, 2024

自适应上下文建模提升视觉故事生成

提出了一种在编码器和采样阶段均采用自适应上下文建模的方法来改进文本到图像生成模型，实现了对视觉化故事生成的全局一致性的提升，取得了 PororoSV 和 FlintstonesSV 数据集上最佳 FID 分数和生成语义一致故事图像的优异性能。

May, 2023