知识引导下的视觉语言提示调优
Context Optimization with Multi-Knowledge Representation (CoKnow) enhances Prompt Learning for VLMs by addressing the lack of diversity in prompt templates, resulting in improved performance compared to previous methods.
Apr, 2024
本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法,以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题,并证明其比手工制作的提示更好。
Sep, 2021
本研究通过提出的 CoCoOp 方法,将输入联系令牌向量与图像条件结合起来和动态提示,以解决 Context Optimization(CoOp)中发现的上下文过度适应基类,取得了更好的泛化性和域泛化性能,实验结果可在提供的网址查看。
Mar, 2022
通过引入属性级归纳偏差和类嵌入来提高图像 - 文本对齐分数的一种新颖的和可解释的提示调优方法。我们通过在 CLIP 上的广泛实验中评估 IntCoOp 来证明其有效性,并发现在 10 个不同领域的下游数据集上,引入属性级归纳偏差能够比现有的提示调优框架获得更好的性能,特别是在 16 张图片的情况下,IntCoOp 提高了 10 个不同数据集的平均表现 7.35%。
Jun, 2024
通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉 - 语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的 CoCoOp 方法相比,KAPT 在新类别中获得了 3.22% 的绝对增益和 2.57% 的调和均值增益。
Aug, 2023
该研究论文介绍了一种名为 Open-world Prompt Tuning (OPT) 的问题设置,通过引入 Decomposed Prompt Tuning framework (DePT) 解决 OPT 问题,并提出了一种名为 Decomposed Context Optimization (DeCoOp) 的新型 prompt tuning 方法,实验证明 DePT 的有效性,并显示 DeCoOp 相较于当前最先进的方法有着 2% 的平均准确率的提升。
Jun, 2024
本文提出一种名为 CoPrompt 的 fine-tuning 方法,用于提高大规模 foundation 模型在 few-shot 场景下 fine-tuning 过程中的泛化能力,实现方法包括强制任务输出一致性约束、在两个受扰动的输入之间进行一致性约束、并结合提示和适配器两种调整模式的优势来调整额外参数。实验表明,CoPrompt 在基于新颖类别、领域泛化以及跨数据集评估任务上均优于现有方法。
Jun, 2023
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
利用双重对齐提示调整 (DuAl-PT),结合大规模视觉语言模型和预训练大型语言模型,在少样本识别和基于新样本泛化上取得了卓越的性能,为未来研究提供了强有力的基准。
Sep, 2023