Sep, 2024

重新审视视觉语言模型的提示预训练

TL;DR本研究解决了在视觉语言模型提示预训练中有限可学习提示面临的欠拟合风险和泛化能力不足的问题。我们提出了一种通用框架——重新审视提示预训练(RPP),通过引入不共享的个体查询、键和值学习提示及利用预训练CLIP教师模型的软标签,来提升模型的适应能力和泛化性能。实验表明,RPP在多个基准测试中表现出色,证明了其在各类视觉识别任务中的强大传递能力。