Sep, 2022

视觉 - 语言模型中零 - shot 泛化的测试时提示调整

TL;DR本文提出一种叫做测试时提示调整 (TPT) 的方法,可在单个测试样本上实时学习适应性提示,优化提前提供的 CLIP 模型动态调整提示, 以最小化模型预测时的不确定度,提高 CLIP 模型的泛化能力。实验结果表明,TPT 方法在自然情况下的 zero-shot top-1 准确率比以往方法的提升 3.6%,并达到了使用额外培训数据的最新先进方法的性能水平。