可推广的视觉语言模型提示调整
本文提出一种叫做测试时提示调整 (TPT) 的方法,可在单个测试样本上实时学习适应性提示,优化提前提供的CLIP模型动态调整提示, 以最小化模型预测时的不确定度,提高CLIP模型的泛化能力。实验结果表明,TPT方法在自然情况下的zero-shot top-1准确率比以往方法的提升3.6%,并达到了使用额外培训数据的最新先进方法的性能水平。
Sep, 2022
研究使用变分推理解决Empirical Risk Minimization在prompt learning中的分布偏移问题,在15个用例中通过Bayesian prompt learning实现了更好的泛化性能。
Oct, 2022
该研究系统研究了文本和视觉提示的参数微调方法。他们提出了一个名为Unified Prompt Tuning(UPT)的方法,通过学习一个微小的神经网络来联合优化跨不同模态的提示,并在11个视觉数据集上进行了强有力的测试,取得了较好的few-shot learning 和domain generalization的效果。
Oct, 2022
通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉-语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的CoCoOp方法相比,KAPT在新类别中获得了3.22%的绝对增益和2.57%的调和均值增益。
Aug, 2023
通过引入Attribute-Guided Prompt Tuning方法,利用基于大型语言模型生成的原始视觉属性来优化视觉-语言模型,包括软提示调整、属性抽样以及负面提示,以提升其在新类别预测和超出分布泛化任务上的表现。
Nov, 2023
通过重新参数化低秩提示(RLP),我们设计了一种新型提示,用于高效和有效地适应基于视觉和语言的模型,并显著增加了传统提示调整的平均下游准确性,仅使用0.5K的参数。
Dec, 2023
本研究提出了一种使用仅文本数据学习通用提示的方法,通过将LLL(large language models)中的上下文数据映射到学习到的提示中,实现了零样本转移,并在4个基准测试上进行了广泛评估。
Jan, 2024
通过测试时间提示调整范式优化学习提示的方式,该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息,同时强调关键的与任务相关的视觉线索。
Mar, 2024
通过利用来自大型语言模型(LLM)的类别描述,我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法,以构建更加可泛化的提示,并通过在 11 个基准数据集上的全面实验验证,超越了现有方法,取得了实质性的改进。
May, 2024