通过生成扩散指导的视角分析多模式目标

Feb, 2023

通过生成扩散指导的视角分析多模式目标

Analyzing Multimodal Objectives Through the Lens of Generative Diffusion Guidance

Chaerin Kong, Nojun Kwak

TL;DR通过使用分类器引导的扩散模型生成反映分类器提供的语义信号的图像，我们研究了多模态学习目标的特征，并比较了对比、匹配和字幕损失。我们还引入了一个简单的基线，不仅支持我们的分析，而且以直观的方式改进了生成引导的质量。

Abstract

Recent years have witnessed astonishing advances in the field of multimodal representation learning, with contrastive learning being the cornerstone for major breakthroughs. Latest works delivered further improvements by incorporating different objectives such as →

multimodal representation learning contrastive learning masked modeling captioning classifier-guided diffusion models

发现论文，激发创造

对比建模：一种高效的多模态生成模型框架

通过对比学习，训练多模式生成模型不仅关注多模式信息的共性，还关注相关和非相关的多模式数据之间的区别，使得可以更加有效地利用未标记的、不成对的多模态数据。

Jul, 2020

基于扩散模型的认知启发跨模态数据生成

探索一种基于扩散模型的跨模态生成方法，通过多模态扩散模型的训练和采样方案使用逐通道图像条件学习跨模态相关性，实现数据生成和多种模态的条件生成。

May, 2023

用于组合表示学习的多模态生成模型

该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明，对于图像、标签和文本数据，这些模型在很多领域中达到了最优结果，并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后，在配合口语的任务中，该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。

Dec, 2019

多模态对比学习的可识别性结果

通过定义多种机制以及与机制特定的潜在变量，本文证明了对比学习可以在多模式下阻止识别那些在模态之间共享的潜在因素，从而为多模式表示学习提供了理论基础，并说明了在哪些情况下多模式对比学习在实践中有效。

Mar, 2023

基于跨模态相似性的课程学习在图像描述中的应用

该研究提出一种基于跨模态相似性的难度度量方法，用于图像字幕生成模型的训练，并在 COCO 和 Flickr30k 数据集上验证了其有效性，证明其在难样本和未见数据上表现出较高的泛化能力。

Dec, 2022

应用扩散模型进行图像字幕的多模态数据增强

本研究提出了一种基于多模态数据增强技术的图像字幕生成方法，旨在解决图像字幕对齐困难的问题。实验证明，本方法可以通过高质量生成图像 - 字幕对来扩充训练数据集，从而提高模型的训练效率和预测准确性。

May, 2023

利用有损扩散模型增强图像布局控制

扩散模型为一种强大的生成模型，能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容，然而，仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制，而这取决于初始噪声分布。本文探讨了两种改进方法，并演示了当这两种方法结合使用时可以获得更好的性能。

May, 2024

DiffusionSeg: 适应扩散的非监督物体发现

本文提出了 DiffusionSeg 框架，利用预训练和扩散模型实现无监督物体发现，并采用合成 - 利用两阶段策略来缓解数据不足和结构差异问题，采用反演技术将图像映射回扩散特征，通过大量实验验证了该方法的优越性。

Mar, 2023

自导扩散模型

本文介绍了一种自导扩散模型的方法，它可以利用自我监督信号来提供图像生成的指导，而无需大量的图像注释对。通过结合特征提取功能和自注释功能，我们的方法可以为各种图像颗粒度提供指导信号，从整体图像到对象框甚至分割掩模。我们的实验表明，我们的方法在单标签和多标签图像数据集上总是优于无指导的扩散模型，甚至可能超过基于基础真实标签的指导，特别是在不平衡数据上。

Oct, 2022

扩散自导式可控图片生成

本篇研究介绍了 self-guidance 这一新方法，通过指导扩散模型的内部表示，提供了对生成图像更强的控制力，可以从这些表示中提取对象的形状、位置和外观等属性，并使用它们来控制生成的采样，这种方法类似于分类器引导，但是不需要额外的模型或训练，作者演示了如何使用这种方法进行复杂的图像操作，如修改对象的位置或大小，合并图像中对象的外观和布局等，并证明了 self-guidance 还可以用于编辑真实图像。

Jun, 2023