视觉语言模型的条件提示学习
本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法,以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题,并证明其比手工制作的提示更好。
Sep, 2021
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
通过将属性添加到提示学习(AAPL)的方法,本研究通过对可学习的上下文进行引导,从而在提取文本特征时专注于未见类的高级特征,以解决传统图像增强对于未见类的泛化问题,实验证明 AAPL 在几 - shot 学习、零 - shot 学习、跨数据集和领域泛化任务中展现了有利的性能。
Apr, 2024
本文提出了一种新的知识引导背景优化(KgCoOp)方法,通过减少学习提示和手工提示之间的差距,增强了学习提示在未知类别任务中的泛化能力,以实现更好的性能表现和更少的训练时间。
Mar, 2023
通过引入属性级归纳偏差和类嵌入来提高图像 - 文本对齐分数的一种新颖的和可解释的提示调优方法。我们通过在 CLIP 上的广泛实验中评估 IntCoOp 来证明其有效性,并发现在 10 个不同领域的下游数据集上,引入属性级归纳偏差能够比现有的提示调优框架获得更好的性能,特别是在 16 张图片的情况下,IntCoOp 提高了 10 个不同数据集的平均表现 7.35%。
Jun, 2024
通过学习图像分类的一系列提示信息,我们证明了与仅仅依赖一个可训练提示相比,学习多样和可能更短的上下文能够在推理时间不增加额外成本的情况下显著和一致地提高结果,在 11 个不同基准测试中显示了我们方法的能力。
Jul, 2023
我们介绍了一种名为 LoCoOp 的新方法,它针对 few-shot OOD 检测进行本地正则化的上下文优化,利用 CLIP 本地特征的部分作为 OOD 特征,并展示了它在大规模 ImageNet OOD 检测基准测试中的优越性。
Jun, 2023
本文提出一种名为 CoPrompt 的 fine-tuning 方法,用于提高大规模 foundation 模型在 few-shot 场景下 fine-tuning 过程中的泛化能力,实现方法包括强制任务输出一致性约束、在两个受扰动的输入之间进行一致性约束、并结合提示和适配器两种调整模式的优势来调整额外参数。实验表明,CoPrompt 在基于新颖类别、领域泛化以及跨数据集评估任务上均优于现有方法。
Jun, 2023
PRE 是一种简单而高效的方法,通过使用一种 prompt 编码器来重新参数化输入 prompt 嵌入,从而增强对从少量样本中探索任务特定知识的能力,其在新类上实现了 5.60% 的平均准确率提升和 3% 的调和平均数提升。
Sep, 2023