ACLMar, 2022

CLIP 模型是少样本学习器:基于 VQA 和视觉蕴涵的实证研究

TL;DR本文实证表明,CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能,并提出了一种参数有效的微调策略,以提高少样本性能,最终取得了有竞争力的零样本 /few-shot 结果。