UniFL:通过统一反馈学习改善稳定扩散
UniControl 是一种新的可控生成基础模型,集成了多种可控因素,实现了基于任意语言提示的像素级精确图像生成,并通过多任务学习,使其具有适应不同可控条件的能力,实验证明其性能优于其他同类型模型。
May, 2023
本文提出了一个名为 UniDiff 的多模态模型,它整合了图像 - 文本对比学习(ITC),文本条件的图像合成学习(IS)和双向语义一致性建模(RSC),并通过在来自 CLIP 和扩散模型的视觉特征上利用 RSC 来有效地学习对齐的语义。该模型在视觉语言检索和文本到图像生成方面展示了显着的增强能力,为个性化建模建立了一个强大的流水线,并成为该领域未来比较的基准。
Jun, 2023
SDXL 是一种潜在扩散模型,用于文本到图像的合成,其使用更大的 UNet 骨干网络以及多重新颖的调制方式和改进模型,且其结果竞争力与黑箱最先进的图像生成器相比具有显著提高。
Jul, 2023
通过降低模型大小和知识蒸馏,我们引入了两种简化的 Stable Diffusion XL 模型 (SSD-1B 和 Segmind-Vega),并证明了在保持高质量生成能力的同时减少模型大小的有效性。
Jan, 2024
本文提出了一种新颖的基于联邦学习技术在多个数据源上训练去噪扩散概率模型的方法,已证明在保持数据多样性,保护隐私和减少数据源之间通信方面优于默认的扩散模型,并提供了一些新的可能性。
Jun, 2023
大型视觉 - 语言模型通过非微调或数据增强实现个性化能力增强。本文提出了两种使用模型无关学习进行图像生成的模型,通过将语义先验与生成能力进行对齐。其中一种方法是 RLDF(Reinforcement Learning from Diffusion Feedback),通过保持先前的奖励函数进行视觉模仿。另一种方法是噪声扩散梯度优化方法。这些方法的核心是我们提出的连续语义引导的特殊 CFG 编码。RLDF 仅使用单张输入图像且无文本输入,在不同领域包括零售、体育和农业生成了具有类一致性和强大视觉多样性的高质量图像。项目网站可在此 https URL 找到。
Nov, 2023
建议了一个统一理论框架,将基于得分的扩散模型和生成对抗网络合并起来,提出了一个名为 “鉴别器去噪扩散流” 的新 SDE,通过调整不同得分项之间的相对权重,可以在 SDMs 和 GANs 之间实现平滑转换,同时保持边际分布不变,提供了新的算法,并具有在高样本质量和快速采样速度之间实现灵活权衡的潜力。
Jul, 2023
Vermouth 是一个简单而有效的框架,由预训练的稳定扩散(SD)模型、能够集成分层表示的统一头部(U-head)和提供鉴别先验的调整专家构成,通过广泛的比较评估,在零样本基于草图的图像检索(ZS-SBIR)、少样本分类和开放词汇语义分割任务上展示了我们方法的效果,展示了扩散模型作为强大学习器的潜力,证明了它们在提供信息丰富和鲁棒的视觉表示方面的重要性。
Jan, 2024
提出了一种在编码器和采样阶段均采用自适应上下文建模的方法来改进文本到图像生成模型,实现了对视觉化故事生成的全局一致性的提升,取得了 PororoSV 和 FlintstonesSV 数据集上最佳 FID 分数和生成语义一致故事图像的优异性能。
May, 2023