UP-DP: 无监督任务学习用于视觉语言模型的数据预选

Jul, 2023

UP-DP: 无监督任务学习用于视觉语言模型的数据预选

UP-DP: Unsupervised Prompt Learning for Data Pre-Selection with Vision-Language Models

Xin Li, Sima Behpour, Thang Doan, Wenbin He, Liang Gou...

TL;DR本研究通过一次遍历未标记数据集来为有限的标注预算优化性能，从而研究数据预选任务。我们引入了 UP-DP，一种简单而有效的无监督提示学习方法，通过适应 BLIP-2 等视觉语言模型进行数据预选，获得了改进表示的联合特征。在七个基准数据集的不同设置下，我们广泛比较了我们的方法与最先进的方法，取得了 20% 的性能提升。据我们所知，UP-DP 是首个将无监督提示学习引入视觉语言模型中进行数据预选的工作。

Abstract

In this study, we investigate the task of data pre-selection, which aims to select instances for labeling from an unlabeled dataset through a single pass, thereby optimizing performance for undefined downstream tasks with a limited →

data pre-selection annotation budget vision and text features unsupervised prompt learning performance gain

发现论文，激发创造

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示，在 ImageNet 以及其他 10 个数据集上，与原始 CLIP 相比，UPL 具有更优秀的传输表现，并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。

Apr, 2022

无监督预训练的语言 - 视觉提示用于低数据实例分割

在当前的研究中，根据最新的 DETR（DEtection TRansformer）范式，基于查询的端到端实例分割（QEIS）方法在大规模数据集上训练时表现出了卓越的性能，尤其是与基于 CNN 的模型相比。然而，当面对有限的训练数据时，这些 QEIS 方法的有效性显著降低。为解决这一问题，我们提出了一种新颖的方法，用于无监督预训练在低数据环境中，即 Unsupervised Pre-training with Language-Vision Prompts (UPLVP)，通过将语言 - 视觉提示引入查询 / 核心，改善了 QEIS 模型的实例分割。我们的方法包括三个部分：(1) Mask Proposal：利用语言 - 视觉模型基于无标签图像生成伪掩膜。(2) Prompt-Kernel Matching：将伪掩膜转换为提示，并将最佳匹配的定位和形状特征注入到对应的核心中。(3) Kernel Supervision：以核心级别制定预训练的监督，以确保鲁棒学习。在我们的预训练方法的帮助下，QEIS 模型可以在低数据环境中更快地收敛并表现出更好的性能，实验评估表明，当使用我们的方法进行预训练时，QEIS 模型在 MS COCO、Cityscapes 和 CTW1500 数据集上的表现可以显著提高。代码将在此 https URL 中提供。

May, 2024

PromptKD: 无监督的视觉语言模型提示蒸馏

在这篇论文中，我们介绍了一种无监督域提示蒸馏框架，通过使用未标记的领域图像进行提示驱动的模仿，旨在将更大的教师模型的知识转移给轻量级目标模型。

Mar, 2024

仅使用文本监督在视觉 - 语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。

Jan, 2024

无需训练的无监督视觉 - 语言模型提示

从大量的预先训练图像 - 语言模型 (VLMs) 调整到下游任务的适应性最好的范式变成了即刻学习。我们提出了无需训练的无监督提示 (TFUP)，它在无需训练或标记的情况下最大程度地保留了内在的表现能力，并通过将预测概率与基于相似度的预测概率之间的残差连接进行增强。然后，我们使用实例置信度和原型分数来选择代表性样本，这些样本用于定制训练自由推理的可靠特征缓存模型 (FCM)。我们设计了一种多级相似度度量 (MSM)，它考虑了特征级和语义级相似度，以计算每个测试图像与缓存样本之间的距离，作为相应缓存标签的权重，进而生成基于相似度的预测概率。通过这种方式，TFUP 在多个分类数据集上实现了令人惊讶的性能，甚至超过了基于训练的方法。在我们的 TFUP 基础上，我们提出了一个训练为基础的方法 (TFUP-T) 来进一步提升适应性能力。除了标准的交叉熵损失外，TFUP-T 还采用了额外的边际分布熵损失，从全局角度约束模型。与无监督和少样本适应方法在多个基准测试中相比，我们的 TFUP-T 实现了新的最先进的分类性能。特别是，在最具挑战的 Domain-Net 数据集上，TFUP-T 将 POUF 的分类准确度提高了 3.3%。

Apr, 2024

视觉语言模型的提示学习

本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法，以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题，并证明其比手工制作的提示更好。

Sep, 2021

无监督视觉语言模型的原型适配器

我们设计了一种名为 Unsupervised Prototype Adapter (UP-Adapter) 的无监督微调方法，通过利用 CLIP 的文本 - 图像对齐能力自动选择每个类别中最有信心的样本，并利用这些选择的样本生成类别原型，用于可学习的原型模型的初始化。经过微调后，通过剩余连接将原型模型的预测与原始 CLIP 的预测相结合，用于执行下游识别任务。我们在图像识别和领域泛化方面的大量实验结果表明，所提出的无监督方法在 8-shot CoOp、8-shot Tip-Adapter 以及最先进的 UPL 方法上都取得了显著优势。

Aug, 2023

BLIP: 为实现统一的视觉语言理解与生成，引入语言 - 图像引导预训练

本文提出了 BLIP 作为新的 VLP 框架，通过引入 captioner 生成合成字幕，并使用 filter 删除噪音数据，能灵活地传输视觉语言理解和生成任务，获得了在一系列视觉语言任务中最先进的结果，同时在零样本任务中也表现出极强的泛化能力。

Jan, 2022

统一视觉与语言提示学习

该研究系统研究了文本和视觉提示的参数微调方法。他们提出了一个名为 Unified Prompt Tuning (UPT) 的方法，通过学习一个微小的神经网络来联合优化跨不同模态的提示，并在 11 个视觉数据集上进行了强有力的测试，取得了较好的 few-shot learning 和 domain generalization 的效果。

Oct, 2022

DPL: 视听模型的解耦式提示学习

通过解耦关注力，提出了一种新的方法 Decoupled Prompt Learning (DPL) 来增强 prompt learning 的泛化能力，并在多个基准测试中取得了最先进的性能。

Aug, 2023