IntCoOp：可解释性感知的视觉 - 语言提示调优

Jun, 2024

IntCoOp：可解释性感知的视觉 - 语言提示调优

IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning

Soumya Suvra Ghosal, Samyadeep Basu, Soheil Feizi, Dinesh Manocha

TL;DR通过引入属性级归纳偏差和类嵌入来提高图像 - 文本对齐分数的一种新颖的和可解释的提示调优方法。我们通过在 CLIP 上的广泛实验中评估 IntCoOp 来证明其有效性，并发现在 10 个不同领域的下游数据集上，引入属性级归纳偏差能够比现有的提示调优框架获得更好的性能，特别是在 16 张图片的情况下，IntCoOp 提高了 10 个不同数据集的平均表现 7.35%。

Abstract

image-text contrastive models such as clip learn transferable and robust representations for zero-shot transfer to a variety of downstream tasks. However, to obtain strong downstream performances, prompts need to

image-text contrastive models clip prompt-tuning inductive biases few-shot learning

发现论文，激发创造

视觉语言模型的提示学习

本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法，以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题，并证明其比手工制作的提示更好。

Sep, 2021

DeCoOp：具有 OD 检测的鲁棒提示调节

该研究论文介绍了一种名为 Open-world Prompt Tuning (OPT) 的问题设置，通过引入 Decomposed Prompt Tuning framework (DePT) 解决 OPT 问题，并提出了一种名为 Decomposed Context Optimization (DeCoOp) 的新型 prompt tuning 方法，实验证明 DePT 的有效性，并显示 DeCoOp 相较于当前最先进的方法有着 2% 的平均准确率的提升。

Jun, 2024

视觉语言模型的条件提示学习

本研究通过提出的 CoCoOp 方法，将输入联系令牌向量与图像条件结合起来和动态提示，以解决 Context Optimization（CoOp）中发现的上下文过度适应基类，取得了更好的泛化性和域泛化性能，实验结果可在提供的网址查看。

Mar, 2022

知识引导下的视觉语言提示调优

本文提出了一种新的知识引导背景优化（KgCoOp）方法，通过减少学习提示和手工提示之间的差距，增强了学习提示在未知类别任务中的泛化能力，以实现更好的性能表现和更少的训练时间。

Mar, 2023

统一视觉与语言提示学习

该研究系统研究了文本和视觉提示的参数微调方法。他们提出了一个名为 Unified Prompt Tuning (UPT) 的方法，通过学习一个微小的神经网络来联合优化跨不同模态的提示，并在 11 个视觉数据集上进行了强有力的测试，取得了较好的 few-shot learning 和 domain generalization 的效果。

Oct, 2022

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

视觉语言理解的情境提示学习

本文提出一种叫做上下文提示学习的框架，用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示，通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。

Jul, 2023

视觉语言模型的一致性引导提示学习

本文提出一种名为 CoPrompt 的 fine-tuning 方法，用于提高大规模 foundation 模型在 few-shot 场景下 fine-tuning 过程中的泛化能力，实现方法包括强制任务输出一致性约束、在两个受扰动的输入之间进行一致性约束、并结合提示和适配器两种调整模式的优势来调整额外参数。实验表明，CoPrompt 在基于新颖类别、领域泛化以及跨数据集评估任务上均优于现有方法。

Jun, 2023

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示，在 ImageNet 以及其他 10 个数据集上，与原始 CLIP 相比，UPL 具有更优秀的传输表现，并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。

Apr, 2022

COMMA: 共同表达多模式学习

本研究提出了 Co-Articulated Multi-Modal Learning (COMMA) 方法，通过联合考虑视觉和语言分支的提示来增强两者的表示对齐，并减轻预训练模型中基本知识的遗忘，实现在多个任务中对新类别、新目标数据集和未见域漂移的良好性能提升。

Dec, 2023