SemEval-2023 任务 1 的增强器：通过提示增强和文本图像扩散增强 CLIP 在处理零样本视觉词义消歧中的复合性和歧义性能力

Jul, 2023

SemEval-2023 任务 1 的增强器：通过提示增强和文本图像扩散增强 CLIP 在处理零样本视觉词义消歧中的复合性和歧义性能力

Augmenters at SemEval-2023 Task 1: Enhancing CLIP in Handling Compositionality and Ambiguity for Zero-Shot Visual WSD through Prompt Augmentation and Text-To-Image Diffusion

PDF

Jie S. Li, Yow-Ting Shiue, Yong-Siang Shih, Jonas Geiping

TL;DR本文有关英文文本下的视觉词义消岐，作者通过两种方法 Augment-CLIP 与 Stable Diffusion Sampling 解决了匹配过程中复杂的组合问题，其中 Augment-CLIP 采用了较大的语言模型来生成文本提示。

Abstract

This paper describes our zero-shot approaches for the Visual Word Sense Disambiguation (VWSD) Task in English. Our preliminary study shows that the simple approach of matching candidate images with the phrase using clip suffers from the many-to-many nature of image-text pairs. We find

visual word sense disambiguation clip augment-clip stable diffusion sampling language models

发现论文，激发创造

增强 CLIP 的改进视觉语言推理

通过使用不同的图像参数化方法，利用生成模型和巧妙设计的蒸馏目标，我们提出了一种轻量级而高效的方法 SDS-CLIP，来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。

Jul, 2023

ComCLIP: 无须训练的图文组合匹配

本文通过提出一种新颖的训练免费的组合 CLIP 模型 (ComCLIP) 来解决复合图像和文本匹配的问题，通过将输入图像分解为主题、对象和动作子图像，并组合 CLIP 的视觉编码器和文本编码器来在组成性文本嵌入和子图像嵌入上执行动态匹配，从而实现了对差异性语义的建模，提高了 CLIP 的零样本推理能力。

Nov, 2022

语义组合提升视觉 - 语言对比学习

通过引入语义组合样本，我们通过一个简单的技术（称为 CLIP-C），显著改善了零样本图像分类和跨模态检索的能力，而不需要额外的计算开销或模型参数增加。

Jul, 2024

CLIP 也是高效分割器：一种文本驱动的弱监督语义分割方法

利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架，结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块，以及 CGL 损失，来提高 WSSS 的效率和性能。

Dec, 2022

CLIP-TD：针对视觉语言任务的 CLIP 目标蒸馏

本研究提出了一项名为 CLIP-TD 的方法，对视觉 - 语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的 CLIP-TD 在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

用 GPT-4 增强 CLIP：利用视觉描述作为提示

我们展示了如何使用 GPT-4 生成视觉描述性文本，并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比，在专门的细粒度数据集上，我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器，学习选择最佳的句子来构建具有优越性能的可推广分类器。

Jul, 2023

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

S-CLIP: 使用少量特定字幕的半监督视觉 - 语言预训练

提出了一种半监督学习方法 S-CLIP，利用额外的非配对图像数据为基于对比学习的语言图像预训练模型 CLIP 训练，采用两个伪标签策略，分别针对对比学习和语言模态，能够显著增强 CLIP 的训练，取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。

May, 2023