无需训练的无监督视觉 - 语言模型提示

Apr, 2024

无需训练的无监督视觉 - 语言模型提示

Training-Free Unsupervised Prompt for Vision-Language Models

Sifan Long, Linbin Wang, Zhen Zhao, Zichang Tan, Yiming Wu...

TL;DR从大量的预先训练图像 - 语言模型 (VLMs) 调整到下游任务的适应性最好的范式变成了即刻学习。我们提出了无需训练的无监督提示 (TFUP)，它在无需训练或标记的情况下最大程度地保留了内在的表现能力，并通过将预测概率与基于相似度的预测概率之间的残差连接进行增强。然后，我们使用实例置信度和原型分数来选择代表性样本，这些样本用于定制训练自由推理的可靠特征缓存模型 (FCM)。我们设计了一种多级相似度度量 (MSM)，它考虑了特征级和语义级相似度，以计算每个测试图像与缓存样本之间的距离，作为相应缓存标签的权重，进而生成基于相似度的预测概率。通过这种方式，TFUP 在多个分类数据集上实现了令人惊讶的性能，甚至超过了基于训练的方法。在我们的 TFUP 基础上，我们提出了一个训练为基础的方法 (TFUP-T) 来进一步提升适应性能力。除了标准的交叉熵损失外，TFUP-T 还采用了额外的边际分布熵损失，从全局角度约束模型。与无监督和少样本适应方法在多个基准测试中相比，我们的 TFUP-T 实现了新的最先进的分类性能。特别是，在最具挑战的 Domain-Net 数据集上，TFUP-T 将 POUF 的分类准确度提高了 3.3%。

Abstract

prompt learning has become the most effective paradigm for adapting large pre-trained vision-language models (VLMs) to downstream tasks. Recently, unsupervised prompt tuning methods, such as UPL and POUF, directl

prompt learning unsupervised prompt tuning training-free unsupervised prompts feature cache model multi-level similarity measure

发现论文，激发创造

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示，在 ImageNet 以及其他 10 个数据集上，与原始 CLIP 相比，UPL 具有更优秀的传输表现，并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。

Apr, 2022

POUF: 面向提示的无监督微调大规模预训练模型

本研究提出一种无监督的精调框架，用于快速和直接地向未标记的目标数据进行深度学习模型的预训练，并在图像分类、情感分析和自然语言推理任务中实现了持续的改进。

Apr, 2023

针对少样本文本分类的统一提示调整

该论文提出了一种统一的 Prompt Tuning (UPT) 框架，通过从非目标自然语言处理数据集中明确捕获提示语义，使 BERT 风格模型在少样本文本分类方面取得更好的性能，该框架引入了一种新的编程范例 Prompt-Options-Verbalizer，强制 PLMs 捕获任务不变提示知识，经过多任务学习后，该模型可以更好地针对任何不同的低资源任务进行提示调整。

May, 2022

UP-DP: 无监督任务学习用于视觉语言模型的数据预选

本研究通过一次遍历未标记数据集来为有限的标注预算优化性能，从而研究数据预选任务。我们引入了 UP-DP，一种简单而有效的无监督提示学习方法，通过适应 BLIP-2 等视觉语言模型进行数据预选，获得了改进表示的联合特征。在七个基准数据集的不同设置下，我们广泛比较了我们的方法与最先进的方法，取得了 20% 的性能提升。据我们所知，UP-DP 是首个将无监督提示学习引入视觉语言模型中进行数据预选的工作。

Jul, 2023

无监督视觉语言模型的原型适配器

我们设计了一种名为 Unsupervised Prototype Adapter (UP-Adapter) 的无监督微调方法，通过利用 CLIP 的文本 - 图像对齐能力自动选择每个类别中最有信心的样本，并利用这些选择的样本生成类别原型，用于可学习的原型模型的初始化。经过微调后，通过剩余连接将原型模型的预测与原始 CLIP 的预测相结合，用于执行下游识别任务。我们在图像识别和领域泛化方面的大量实验结果表明，所提出的无监督方法在 8-shot CoOp、8-shot Tip-Adapter 以及最先进的 UPL 方法上都取得了显著优势。

Aug, 2023

统一视觉与语言提示学习

该研究系统研究了文本和视觉提示的参数微调方法。他们提出了一个名为 Unified Prompt Tuning (UPT) 的方法，通过学习一个微小的神经网络来联合优化跨不同模态的提示，并在 11 个视觉数据集上进行了强有力的测试，取得了较好的 few-shot learning 和 domain generalization 的效果。

Oct, 2022

无监督预训练的语言 - 视觉提示用于低数据实例分割

在当前的研究中，根据最新的 DETR（DEtection TRansformer）范式，基于查询的端到端实例分割（QEIS）方法在大规模数据集上训练时表现出了卓越的性能，尤其是与基于 CNN 的模型相比。然而，当面对有限的训练数据时，这些 QEIS 方法的有效性显著降低。为解决这一问题，我们提出了一种新颖的方法，用于无监督预训练在低数据环境中，即 Unsupervised Pre-training with Language-Vision Prompts (UPLVP)，通过将语言 - 视觉提示引入查询 / 核心，改善了 QEIS 模型的实例分割。我们的方法包括三个部分：(1) Mask Proposal：利用语言 - 视觉模型基于无标签图像生成伪掩膜。(2) Prompt-Kernel Matching：将伪掩膜转换为提示，并将最佳匹配的定位和形状特征注入到对应的核心中。(3) Kernel Supervision：以核心级别制定预训练的监督，以确保鲁棒学习。在我们的预训练方法的帮助下，QEIS 模型可以在低数据环境中更快地收敛并表现出更好的性能，实验评估表明，当使用我们的方法进行预训练时，QEIS 模型在 MS COCO、Cityscapes 和 CTW1500 数据集上的表现可以显著提高。代码将在此 https URL 中提供。

May, 2024

基于 LLM 增强的提示调整的无数据多标签图像识别

提出了一种无需训练数据的多标签图像识别新框架，利用预训练大型语言模型（LLM）的知识学习提示，使预训练的视觉 - 语言模型（VLM）如 CLIP 适应多标签分类。通过向 LLM 提问获取关于对象的特性和背景的综合知识，为学习提示提供宝贵的文本描述。然后，通过考虑多标签依赖性，提出了一种层次化的提示学习方法，在对象具有相似属性或更有可能共现时，共享特定类别提示标记的子集。由于 CLIP 在视觉和语义上具有显著的对准性，从文本描述学习到的层次化提示被应用于推理过程中的图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新途径。在三个公共数据集（MS-COCO、VOC2007 和 NUS-WIDE）上进行的大量实验证明，我们的方法比现有方法取得更好的结果，尤其是在 MS-COCO 上的零样本多标签识别方法的 mAP 上超过 4.7%。

Mar, 2024

朝着具有 CLIP 的逼真无监督微调

通过将视觉语言模型 (VLMs) 应用于下游监督学习任务，本文探讨了无监督微调 CLIP 模型，解决了未知类别的样本和识别预定义类别实例的问题，并提出了一种称为通用熵优化 (UEO) 的简单有效的微调方法。通过广泛的实验，我们证明了 UEO 方法在泛化能力和检测未知类别样本方面优于基线方法。

Aug, 2023

候选伪标签学习：通过无标签数据及时调整以增强视觉 - 语言模型

通过候选伪标签学习方法（CPL）在下游任务中使用适当的候选伪标签细调视觉 - 语言模型（VLMs），以提高 VLMs 在大量无标签数据上的 True 标签包含能力和类别平衡实例选择效果。

Jun, 2024