区分性扩散模型作为几个少样本视觉和语言学习器

May, 2023

区分性扩散模型作为几个少样本视觉和语言学习器

Discriminative Diffusion Models as Few-shot Vision and Language Learners

Xuehai He, Weixi Feng, Tsu-Jui Fu, Varun Jampani, Arjun Akula...

TL;DR该论文提出了一种名为 DSD 的创新方法，它利用预训练的 text-to-image 扩散模型进行少样本判别性学习，并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响，并通过基于注意力的提示学习对模型进行微调，实现图文匹配，并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。

Abstract

diffusion models, such as Stable Diffusion, have shown incredible performance on text-to-image generation. Since text-to-image generation

text-to-image generation diffusion models discriminative tasks few-shot learning image-text matching

发现论文，激发创造

扩散模型是否具备视觉和语言推理能力？

通过引入 DiffusionITM 方法并且使用 Generative-Discriminative Evaluation Benchmark 进行 7 复杂的视觉语言任务的评估，我们发现在 CLEVR 和 Winoground 等组成任务中 Stable Diffusion + DiffusionITM 的结果优于 CLIP。此外，我们发现 Stable Diffusion 2.1 在大部分情况下比 Stable Diffusion 1.5 更少受到刻板印象的影响。

May, 2023

扩散模型其实是一个零样本分类器

本文介绍了基于文本和图像结合模型的生成分类方法，利用如 Stable Diffusion 的扩展图像扩散模型提供的在不需要额外训练的条件概率密度估计，实现了零样本分类，并证明其能够在多种基准测试上获得强大的结果及优于竞争方法的效果，同时还发现与对比差异对比性方法相比，扩散方法在多模式关系推理方面具有更强的能力，并且即使在弱增强和没有正则化的情况下，基于图像的扩散模型也能取得与训练于同一数据集的 SOTA 判别分类器相近的性能。

Mar, 2023

DiffDis：将生成式扩散模型赋能跨模态辨别能力

在这篇论文中，我们提出了 DiffDis，通过扩展扩散过程，将跨模态生成和辨别预训练统一到一个框架中。DiffDis 通过融合噪声文本嵌入和来自不同尺度的潜在图像的知识，提出了一种新颖的双流网络架构，来解决图像 - 文本辨别任务。通过基于扩散的统一训练，DiffDis 在一种体系结构中实现了更好的生成能力和跨模态语义对齐。实验结果表明，DiffDis 在图像生成和图像 - 文本辨别任务上优于单一任务模型，例如在 12 个数据集上的零样本分类的平均准确性提高了 1.65％，在零样本图像合成的 FID 上提高了 2.42 个点。

Aug, 2023

反向稳定扩散：生成此图像所使用的提示是什么？

预测生成式扩散模型所生成图像的文本提示，采用联合回归和多标签词汇分类目标的新型学习框架，结合白盒和黑盒模型解决生成文本提示的问题，并通过课程学习和领域自适应核学习方法进一步改进。实验结果表明，该学习框架在预测文本提示任务上取得了出色的结果，尤其在白盒模型上应用时效果最好，并发现在生成文本到图像时将该模型用于回收训练能够使生成的图像与输入提示更好地对齐。

Aug, 2023

文本到图像扩散模型是优秀的素描照片匹配工具

这篇论文首次探索了用于零样本基于草图的图像检索的文本到图像扩散模型，发现其能够无缝地弥合草图与照片之间的差距，利用交叉模态能力和形状倾向性，通过我们的初步研究得到验证。为了有效利用预训练的扩散模型，我们引入了一种简单而有效的策略，着重于两个关键方面：选择最佳特征层和利用视觉和文本提示。通过识别最丰富信息且最适合特定检索要求（分类级别或细粒度）的层，然后使用视觉和文本提示来引导模型的特征提取过程，使其生成更具辨别力和相关上下文的交叉模态表示。在几个基准数据集上进行的大量实验证实了显著的性能提升。

Mar, 2024

预训练的文本到图像扩散模型是多用途控制表征学习器

使用预先训练的文本到图像扩散模型构建稳定的控制表示，从而实现细粒度场景理解和学习复杂控制策略。

May, 2024

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

在文本图像生成模型中定位和编辑知识

文本到图像扩散模型研究了知识表示和视觉特征，采用因果中介分析方法来理解大规模文本到图像扩散模型中不同视觉属性相关的知识是如何存储的，并发现在条件 UNet 的一组组件中分布着不同属性的知识。同时，发现在公共文本到图像模型中，只存在一个因果状态，这在其他语言模型中是不同的。基于这种观察，引入了一种快速、无需数据的模型编辑方法 Diff-QuickFix，可以在短时间内编辑（删除）模型中的概念，提供了 1000 倍的加速和与现有微调方法相当的编辑性能。

Oct, 2023

孤立扩散：多概念文本到图像生成的优化 —— 在自由训练中使用孤立扩散引导

通过单独的扩散过程和修订方法，本研究提出了一种针对大规模文本到图像扩散模型的通用方法，以解决复杂场景中不同主题及其附件之间的相互干扰，追求更好的文本图像一致性。

Mar, 2024