扩散模型是否具备视觉和语言推理能力？

May, 2023

扩散模型是否具备视觉和语言推理能力？

Are Diffusion Models Vision-And-Language Reasoners?

Benno Krojer, Elinor Poole-Dayan, Vikram Voleti, Christopher Pal, Siva Reddy

TL;DR通过引入 DiffusionITM 方法并且使用 Generative-Discriminative Evaluation Benchmark 进行 7 复杂的视觉语言任务的评估，我们发现在 CLEVR 和 Winoground 等组成任务中 Stable Diffusion + DiffusionITM 的结果优于 CLIP。此外，我们发现 Stable Diffusion 2.1 在大部分情况下比 Stable Diffusion 1.5 更少受到刻板印象的影响。

Abstract

text-conditioned image generation models have recently shown immense qualitative success using denoising diffusion processes. However, unlike discriminative vision-and-language models, it is a non-trivial task to subject these →

text-conditioned image generation diffusion-based generative models image-text matching generative-discriminative evaluation benchmark compositional tasks

发现论文，激发创造

区分性扩散模型作为几个少样本视觉和语言学习器

该论文提出了一种名为 DSD 的创新方法，它利用预训练的 text-to-image 扩散模型进行少样本判别性学习，并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响，并通过基于注意力的提示学习对模型进行微调，实现图文匹配，并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。

May, 2023

可组合扩散模型下的组合视觉生成

通过解释扩散模型为基于能量的模型，在训练和测试阶段中将一组扩散模型组合在一起，结构化生成，该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像，解决了 DALLE-2 在对象属性方面的困难。

Jun, 2022

COCO 和 Weed 数据集的稳定扩散

通过稳定扩散模型生成高分辨率图像，并利用这些图像提高检测模型的性能，这项研究有助于将稳定扩散模型应用于不同领域的分类和检测任务。

Dec, 2023

调色板：图像到图像扩散模型

本文提出了一种基于条件扩散模型的统一框架，用于图像到图像的转换，并在四个具有挑战性的图像到图像任务中测试了这个框架，即上色，修复，裁剪和 JPEG 恢复。我们的简单实现超越了所有任务上的强 GAN 和回归基线，无需任务特定的超参数调整，架构定制或需要任何辅助丢失或先进的新技术。我们揭示了扩散目标中 L2 与 L1 损失的影响，并通过实证研究证明了自我关注在神经结构中的重要性。重要的是，我们提倡一个基于 ImageNet 的统一评估协议，具有人工评估和样本质量得分（FID，Inception Score，预训练 ResNet-50 的分类准确度和与原始图像的感知距离），我们期望这个标准化的评估协议在推进图像到图像翻译研究方面起到作用。最后，我们展示了一个通用的，多任务扩散模型的执行效果与任务特定的专家模型相当或更好。

Nov, 2021

GLIDE: 基于文本引导扩散模型的逼真图像生成和编辑

本研究探讨了扩散模型在文本条件下生成图像的问题，并比较了不同的指导策略：CLIP 指导和无分类器指导。结果发现对于照片逼真度和字幕相似性，后者更受人类评估人员的青睐，还可以进行图像修复。

Dec, 2021

扩散模型其实是一个零样本分类器

本文介绍了基于文本和图像结合模型的生成分类方法，利用如 Stable Diffusion 的扩展图像扩散模型提供的在不需要额外训练的条件概率密度估计，实现了零样本分类，并证明其能够在多种基准测试上获得强大的结果及优于竞争方法的效果，同时还发现与对比差异对比性方法相比，扩散方法在多模式关系推理方面具有更强的能力，并且即使在弱增强和没有正则化的情况下，基于图像的扩散模型也能取得与训练于同一数据集的 SOTA 判别分类器相近的性能。

Mar, 2023

DiffDis：将生成式扩散模型赋能跨模态辨别能力

在这篇论文中，我们提出了 DiffDis，通过扩展扩散过程，将跨模态生成和辨别预训练统一到一个框架中。DiffDis 通过融合噪声文本嵌入和来自不同尺度的潜在图像的知识，提出了一种新颖的双流网络架构，来解决图像 - 文本辨别任务。通过基于扩散的统一训练，DiffDis 在一种体系结构中实现了更好的生成能力和跨模态语义对齐。实验结果表明，DiffDis 在图像生成和图像 - 文本辨别任务上优于单一任务模型，例如在 12 个数据集上的零样本分类的平均准确性提高了 1.65％，在零样本图像合成的 FID 上提高了 2.42 个点。

Aug, 2023

面向稠密视觉任务的扩散型通用模型

构建广义模型以同时解决多个计算机视觉任务是一个有趣的方向，本文探索基于扩散的视觉通用模型，将不同类型的密集预测任务统一为条件图像生成，并重新调整预训练的扩散模型，我们在四种不同类型的任务上实验证明了与其他视觉通用模型竞争性的性能。

Jun, 2024

基于扩散模型的图像编辑：一项综述

调查论文对使用扩散模型进行图像编辑的现有方法进行了全面的概述，包括理论和实践方面，并从多个角度对这些作品进行了彻底分析和分类，介绍了学习策略、用户输入条件以及可以实现的特定编辑任务的组合。此外，对图像修复和扩展进行了特别关注，并探讨了早期的传统上下文驱动方法和当前的多模态条件方法，全面分析了它们的方法论。最后，讨论当前的限制并展望未来的研究方向。

Feb, 2024

低层视觉中的扩散模型：概述

这篇综述论文全面地评估了扩散模型技术，并探讨了它们与其他深度生成模型的相关性，建立了理论基础。同时，该论文还总结了扩散模型在医学、遥感和视频等领域应用的情况，提供了常用基准和评估指标的概述，以及针对三个主要任务的扩散模型技术的全面评估。最后，作者指出当前扩散模型的局限性，并提出了未来研究的七个有趣方向。这篇综述论文旨在加深人们对于在低层次视觉任务中的去噪扩散模型领域的全面理解。

Jun, 2024