Oct, 2024

聚合与适应自然语言提示以实现CLIP的下游泛化

TL;DR本研究解决了大型预训练视觉语言模型CLIP在特定领域或细粒度分类任务中的泛化能力不足的问题。通过提炼自然语言提示的文本知识,我们提出了一种新的聚合与适应提示嵌入(AAPE),能够在有限注释数据的情况下更有效地适应下游任务,使其在视觉语言理解和生成任务中显示出竞争力的表现,特别是在处理非常规和OOD示例时效果显著。