Jul, 2023

用 GPT-4 增强 CLIP:利用视觉描述作为提示

TL;DR我们展示了如何使用 GPT-4 生成视觉描述性文本,并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比,在专门的细粒度数据集上,我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器,学习选择最佳的句子来构建具有优越性能的可推广分类器。