视觉语言模型的提示学习
本研究通过提出的 CoCoOp 方法,将输入联系令牌向量与图像条件结合起来和动态提示,以解决 Context Optimization(CoOp)中发现的上下文过度适应基类,取得了更好的泛化性和域泛化性能,实验结果可在提供的网址查看。
Mar, 2022
通过学习图像分类的一系列提示信息,我们证明了与仅仅依赖一个可训练提示相比,学习多样和可能更短的上下文能够在推理时间不增加额外成本的情况下显著和一致地提高结果,在 11 个不同基准测试中显示了我们方法的能力。
Jul, 2023
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
通过引入属性级归纳偏差和类嵌入来提高图像 - 文本对齐分数的一种新颖的和可解释的提示调优方法。我们通过在 CLIP 上的广泛实验中评估 IntCoOp 来证明其有效性,并发现在 10 个不同领域的下游数据集上,引入属性级归纳偏差能够比现有的提示调优框架获得更好的性能,特别是在 16 张图片的情况下,IntCoOp 提高了 10 个不同数据集的平均表现 7.35%。
Jun, 2024
本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示,在 ImageNet 以及其他 10 个数据集上,与原始 CLIP 相比,UPL 具有更优秀的传输表现,并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。
Apr, 2022
PRE 是一种简单而高效的方法,通过使用一种 prompt 编码器来重新参数化输入 prompt 嵌入,从而增强对从少量样本中探索任务特定知识的能力,其在新类上实现了 5.60% 的平均准确率提升和 3% 的调和平均数提升。
Sep, 2023
本研究提出了一种使用仅文本数据学习通用提示的方法,通过将 LLL(large language models)中的上下文数据映射到学习到的提示中,实现了零样本转移,并在 4 个基准测试上进行了广泛评估。
Jan, 2024
本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于 context optimization
Oct, 2021
Context Optimization with Multi-Knowledge Representation (CoKnow) enhances Prompt Learning for VLMs by addressing the lack of diversity in prompt templates, resulting in improved performance compared to previous methods.
Apr, 2024