UniDiff: 利用生成和判别式学习推进视觉 - 语言模型

Jun, 2023

UniDiff: 利用生成和判别式学习推进视觉 - 语言模型

UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning

Xiao Dong, Runhui Huang, Xiaoyong Wei, Zequn Jie, Jianxing Yu...

TL;DR本文提出了一个名为 UniDiff 的多模态模型，它整合了图像 - 文本对比学习（ITC），文本条件的图像合成学习（IS）和双向语义一致性建模（RSC），并通过在来自 CLIP 和扩散模型的视觉特征上利用 RSC 来有效地学习对齐的语义。该模型在视觉语言检索和文本到图像生成方面展示了显着的增强能力，为个性化建模建立了一个强大的流水线，并成为该领域未来比较的基准。

Abstract

Recent advances in vision-language pre-training have enabled machines to perform better in multimodal object discrimination (e.g., image-text semantic alignment) and image synthesis (e.g., text-to-image generation

vision-language pre-training multimodal model unidiff text-to-image generation fine-tuning

发现论文，激发创造

DiffDis：将生成式扩散模型赋能跨模态辨别能力

在这篇论文中，我们提出了 DiffDis，通过扩展扩散过程，将跨模态生成和辨别预训练统一到一个框架中。DiffDis 通过融合噪声文本嵌入和来自不同尺度的潜在图像的知识，提出了一种新颖的双流网络架构，来解决图像 - 文本辨别任务。通过基于扩散的统一训练，DiffDis 在一种体系结构中实现了更好的生成能力和跨模态语义对齐。实验结果表明，DiffDis 在图像生成和图像 - 文本辨别任务上优于单一任务模型，例如在 12 个数据集上的零样本分类的平均准确性提高了 1.65％，在零样本图像合成的 FID 上提高了 2.42 个点。

Aug, 2023

UNIMO-G：基于多模态条件扩散的统一图像生成

UNIMO-G 是一个简单的多模态条件扩散框架，能够对多模态提示进行操作，并展示了文本驱动和主体驱动图像生成的统一能力。该框架通过训练大规模文本 - 图像对，以及使用多模态提示进行指导微调，实现了高保真度的图像生成。

Jan, 2024

图像 - 文本 - 标签空间统一的对比学习

该研究提出了一种新型的学习范式 - 统一对比学习（UniCL），通过将人类标注的图像标签数据和网络爬取的图像文本数据相结合，学习出在零样本，线性探测，完全微调和迁移学习方案中具有语义丰富而有区分性的表示。在各种基准测试中，UniCL 的性能均优于语言图像对比学习和监督学习方法，并且在纯图像标签数据上，其表现也不亚于监督学习方法。

Apr, 2022

扩散模型是否具备视觉和语言推理能力？

通过引入 DiffusionITM 方法并且使用 Generative-Discriminative Evaluation Benchmark 进行 7 复杂的视觉语言任务的评估，我们发现在 CLEVR 和 Winoground 等组成任务中 Stable Diffusion + DiffusionITM 的结果优于 CLIP。此外，我们发现 Stable Diffusion 2.1 在大部分情况下比 Stable Diffusion 1.5 更少受到刻板印象的影响。

May, 2023

图文检索的动态对比蒸馏

本研究提出了一种名为 DCD 的新型动态对比蒸馏框架，用于压缩大型 VLP 模型以改善跨模态图像文本检索（ITR）的效率和部署，其中涉及多模态对比学习、动态蒸馏等技术，实验证明在 MS-COCO 和 Flickr30K 基准上，将 DCD 策略应用于两种最先进的视觉语言预训练模型 VILT 和 METER 可加快推断至少 129 倍。

Jul, 2022

UNIMO：通过跨模态对比学习实现统一模态理解和生成

本文介绍了一种名为 UNIMO 的统一单模态预训练架构，它可以有效地适应单模态和多模态理解和生成任务，利用大规模自由文本语料库和图像集合来提高视觉和文本理解的能力，并使用跨模态对比学习来将文本和视觉信息对齐到图像 - 文本对的统一语义空间。实验结果表明，UNIMO 显著改善了几个单模态和多模态下游任务的性能。

Dec, 2020

UniControl：一种用于自然环境中可控视觉生成的统一扩散模型

UniControl 是一种新的可控生成基础模型，集成了多种可控因素，实现了基于任意语言提示的像素级精确图像生成，并通过多任务学习，使其具有适应不同可控条件的能力，实验证明其性能优于其他同类型模型。

May, 2023

区分性扩散模型作为几个少样本视觉和语言学习器

该论文提出了一种名为 DSD 的创新方法，它利用预训练的 text-to-image 扩散模型进行少样本判别性学习，并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响，并通过基于注意力的提示学习对模型进行微调，实现图文匹配，并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。

May, 2023

UPainting: 统一的跨模态引导文本到图像扩散生成

本文介绍了 UPainting 这个同时适用于简单和复杂场景图像生成的模型，利用预训练的 Transformer 语言模型作为文本编码器，结合预训练的图像 - 文本匹配模型进行跨模态引导，提高了生成图像的样本保真度和图像 - 文本对齐程度。在中英文简单和复杂场景的对比实验中，UPainting 相对于其他模型表现得更加优异。

Oct, 2022

双重对比学习用于无监督图像翻译

本文提出了一种新的基于对比学习与双学习设置的方法，用于有效地推断未匹配数据之间的映射，同时解决了 “切割” 方法存在的潜在问题，并通过大量的消融研究和多个挑战性的图像翻译任务展示了优越的性能。然后，我们证明了非监督方法和监督方法之间的差距可以被有效地缩小。

Apr, 2021