知识引导下的视觉语言提示调优

CVPRMar, 2023

Visual-Language Prompt Tuning with Knowledge-guided Context Optimization

Hantao Yao, Rui Zhang, Changsheng Xu

TL;DR本文提出了一种新的知识引导背景优化（KgCoOp）方法，通过减少学习提示和手工提示之间的差距，增强了学习提示在未知类别任务中的泛化能力，以实现更好的性能表现和更少的训练时间。

Abstract

prompt tuning is an effective way to adapt the pre-trained visual-language model (VLM) to the downstream task using task-related textual tokens. Representative CoOp-based work combines the learnable textual tokens with the class tokens to obtain specific textual knowledge. However, the

prompt tuning visual-language model kgcoop generalization unseen classes

发现论文，激发创造

通过多知识表示优化视觉语言模型的提示学习

Context Optimization with Multi-Knowledge Representation (CoKnow) enhances Prompt Learning for VLMs by addressing the lack of diversity in prompt templates, resulting in improved performance compared to previous methods.

Apr, 2024

视觉语言模型的提示学习

本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法，以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题，并证明其比手工制作的提示更好。

Sep, 2021

视觉语言模型的条件提示学习

本研究通过提出的 CoCoOp 方法，将输入联系令牌向量与图像条件结合起来和动态提示，以解决 Context Optimization（CoOp）中发现的上下文过度适应基类，取得了更好的泛化性和域泛化性能，实验结果可在提供的网址查看。

Mar, 2022

IntCoOp：可解释性感知的视觉 - 语言提示调优

通过引入属性级归纳偏差和类嵌入来提高图像 - 文本对齐分数的一种新颖的和可解释的提示调优方法。我们通过在 CLIP 上的广泛实验中评估 IntCoOp 来证明其有效性，并发现在 10 个不同领域的下游数据集上，引入属性级归纳偏差能够比现有的提示调优框架获得更好的性能，特别是在 16 张图片的情况下，IntCoOp 提高了 10 个不同数据集的平均表现 7.35%。

Jun, 2024

基于知识的提示调优通用视觉语言模型

通过设计两种类型的知识感知提示，离散提示和学习连续提示，以及视觉编码器的适应头部，实现针对视觉 - 语言模型的知识感知提示调整（KAPT）框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的 CoCoOp 方法相比，KAPT 在新类别中获得了 3.22% 的绝对增益和 2.57% 的调和均值增益。

Aug, 2023

DeCoOp：具有 OD 检测的鲁棒提示调节

该研究论文介绍了一种名为 Open-world Prompt Tuning (OPT) 的问题设置，通过引入 Decomposed Prompt Tuning framework (DePT) 解决 OPT 问题，并提出了一种名为 Decomposed Context Optimization (DeCoOp) 的新型 prompt tuning 方法，实验证明 DePT 的有效性，并显示 DeCoOp 相较于当前最先进的方法有着 2% 的平均准确率的提升。

Jun, 2024

知识化提示微调：将知识融入文本分类的提示语生成器

本文关注于将外部知识融入语言模型的提示操作，形成知识型提示微调，以提高和稳定性能，实验证明其在评论分类任务中有效。

Aug, 2021

视觉语言模型的一致性引导提示学习

本文提出一种名为 CoPrompt 的 fine-tuning 方法，用于提高大规模 foundation 模型在 few-shot 场景下 fine-tuning 过程中的泛化能力，实现方法包括强制任务输出一致性约束、在两个受扰动的输入之间进行一致性约束、并结合提示和适配器两种调整模式的优势来调整额外参数。实验表明，CoPrompt 在基于新颖类别、领域泛化以及跨数据集评估任务上均优于现有方法。

Jun, 2023

视觉语言理解的情境提示学习

本文提出一种叫做上下文提示学习的框架，用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示，通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。

Jul, 2023

双对齐下的上下文感知视觉 - 语言模型提示调优

利用双重对齐提示调整 (DuAl-PT)，结合大规模视觉语言模型和预训练大型语言模型，在少样本识别和基于新样本泛化上取得了卓越的性能，为未来研究提供了强有力的基准。

Sep, 2023