本文提出一种叫做测试时提示调整 (TPT) 的方法,可在单个测试样本上实时学习适应性提示,优化提前提供的CLIP模型动态调整提示, 以最小化模型预测时的不确定度,提高CLIP模型的泛化能力。实验结果表明,TPT方法在自然情况下的zero-shot top-1准确率比以往方法的提升3.6%,并达到了使用额外培训数据的最新先进方法的性能水平。
Sep, 2022
本研究提出一个新的模型Prompt-Adapter,将预训练的提示调整与高效自适应网络相结合,用于高效的视觉-语言模型适应过程,超过公共数据集中少量数据情况下的现有方法,在此基础上,探讨了多任务预训练初始化与 prompt tuning 相结合的思想。
Mar, 2023
本文介绍了一种新的PrOmpt cLass lEarning (POLE)策略,在弱监督语义分割(WSSS)问题上实现最先进的性能,并强调了语言-视觉模型在WSSS中的优势和提示学习在该问题中的潜力。
Jun, 2023
视觉语言模型通过大规模训练数据学习了一种通用的文本-图像嵌入。通过少量样本的提示调整,可以将视觉语言模型适应到新的分类任务中。我们发现,这种提示调整过程对标签噪声非常稳健,且具有鲁棒性。
Jul, 2023
利用双重对齐提示调整(DuAl-PT),结合大规模视觉语言模型和预训练大型语言模型,在少样本识别和基于新样本泛化上取得了卓越的性能,为未来研究提供了强有力的基准。
Sep, 2023
通过测试时间提示调整范式优化学习提示的方式,该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息,同时强调关键的与任务相关的视觉线索。
Mar, 2024
通过测试样本的无监督目标,在视觉识别任务中使用上下文提示学习来适应预训练的视觉-语言模型,并取得了在各种下游数据集上的有效结果。
通过利用来自大型语言模型(LLM)的类别描述,我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法,以构建更加可泛化的提示,并通过在 11 个基准数据集上的全面实验验证,超越了现有方法,取得了实质性的改进。
May, 2024
对视觉-语言模型的测试时间适应性策略进行系统探索,包括提示工程策略和现有的测试时间适应方法,以提高模型在真实场景中的适应性和鲁棒性。
我们提出了一种框架,通过使用候选标签对VLM进行prompt learning,根据模型输出和类别后验预测,结合可学习和手工构建的提示方式来消除标签的歧义,并引入了不同的训练目标,进一步提高了性能。
Jul, 2024