Mar, 2022
CLIP 模型是少样本学习器:基于 VQA 和视觉蕴涵的实证研究
CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment
TL;DR本文实证表明,CLIP通过利用语言的能力可以成为强大的视觉-语言少样本学习器。我们评估了CLIP在典型的视觉问答任务和视觉蕴含任务的零样本性能,并提出了一种参数有效的微调策略,以提高少样本性能,最终取得了有竞争力的零样本/few-shot结果。