DiffDis：将生成式扩散模型赋能跨模态辨别能力

ICCVAug, 2023

DiffDis：将生成式扩散模型赋能跨模态辨别能力

DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability

Runhui Huang, Jianhua Han, Guansong Lu, Xiaodan Liang, Yihan Zeng...

TL;DR在这篇论文中，我们提出了 DiffDis，通过扩展扩散过程，将跨模态生成和辨别预训练统一到一个框架中。DiffDis 通过融合噪声文本嵌入和来自不同尺度的潜在图像的知识，提出了一种新颖的双流网络架构，来解决图像 - 文本辨别任务。通过基于扩散的统一训练，DiffDis 在一种体系结构中实现了更好的生成能力和跨模态语义对齐。实验结果表明，DiffDis 在图像生成和图像 - 文本辨别任务上优于单一任务模型，例如在 12 个数据集上的零样本分类的平均准确性提高了 1.65％，在零样本图像合成的 FID 上提高了 2.42 个点。

Abstract

Recently, large-scale diffusion models, e.g., Stable diffusion and DallE2, have shown remarkable results on image synthesis. On the other hand, large-scale cross-modal pre-trained models (e.g., CLIP, ALIGN, and F

large-scale diffusion models cross-modal pre-trained models diffdis generation and discrimination multi-modality model

发现论文，激发创造

UniDiff: 利用生成和判别式学习推进视觉 - 语言模型

本文提出了一个名为 UniDiff 的多模态模型，它整合了图像 - 文本对比学习（ITC），文本条件的图像合成学习（IS）和双向语义一致性建模（RSC），并通过在来自 CLIP 和扩散模型的视觉特征上利用 RSC 来有效地学习对齐的语义。该模型在视觉语言检索和文本到图像生成方面展示了显着的增强能力，为个性化建模建立了一个强大的流水线，并成为该领域未来比较的基准。

Jun, 2023

区分性扩散模型作为几个少样本视觉和语言学习器

该论文提出了一种名为 DSD 的创新方法，它利用预训练的 text-to-image 扩散模型进行少样本判别性学习，并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响，并通过基于注意力的提示学习对模型进行微调，实现图文匹配，并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。

May, 2023

DiffBlender: 可扩展和可组合的多模态文本到图像扩散模型

通过设计一种多模态文本到图像扩散模型（DiffBlender），可以同时引入多种不同类型的细节表达方式，如草图、盒子和风格嵌入等，不需要更改现有模型的参数，从而在单个模型中实现条件生成，并且通过量化和定性比较，将多模态生成的标准提高到了新的水平。

May, 2023

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Aug, 2023

跨模态音乐和图像生成的离散对比扩散

通过提高输入与输出的互信息，利用条件离散对比扩散 (CDCD) 损失和两种对比扩散机制，将对比学习和传统变分目标相结合，我们成功地提高了多模式条件综合生成模型的输入输出对应性并取得了良好的结果。

Jun, 2022

去扩散使文本成为强大的跨模态接口

我们展示了一种以文本作为强大的跨模态接口的方法，通过将图像表示为文本，利用自然语言的可解释性和灵活性，我们使用一个自动编码器，将输入图像转换为文本，并通过固定的文本到图像扩散解码器进行重构，该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性，使其可以轻松地被一般的文本到图像工具和 LLMs 接收，并可用于多样化的多模态任务。

Nov, 2023

多模态人脸生成与编辑的协同扩散

本文提出了一种名为 Collaborative Diffusion 的模型，在不需要重新训练的情况下，利用多种单一模态扩展固有的单一模态扩散模型以实现多模态人脸生成和编辑。

Apr, 2023

扩散模型是否具备视觉和语言推理能力？

通过引入 DiffusionITM 方法并且使用 Generative-Discriminative Evaluation Benchmark 进行 7 复杂的视觉语言任务的评估，我们发现在 CLEVR 和 Winoground 等组成任务中 Stable Diffusion + DiffusionITM 的结果优于 CLIP。此外，我们发现 Stable Diffusion 2.1 在大部分情况下比 Stable Diffusion 1.5 更少受到刻板印象的影响。

May, 2023

跨模态语境扩散模型的文本导向视觉生成与编辑

我们提出了一种新颖而通用的上下文扩散模型 (ContextDiff)，通过将文本条件与视觉样本之间的交互和对齐引入前向和后向过程中，将上下文传播到这两个过程的所有时间步，从而促进跨模态条件建模，在文本到图像生成和文本到视频编辑的两个挑战性任务中，我们的 ContextDiff 实现了新的最先进性能，通过定量和定性评估明显增强了文本条件与生成样本之间的语义对齐。

Feb, 2024

eDiff-I：使用专家去噪模型集合的文本到图像扩散模型

该研究提出了一种基于扩散的生成模型，通过设计针对迭代生成过程的特殊模型，实现了更好的文本对齐，利用不同嵌入技术对模型进行调整，实现对参考图像风格进行自适应转换，并展示了一种 “文字涂鸦” 的技术，可帮助用户控制所需的图像输出。

Nov, 2022