CVPRJun, 2023
如何将大型视觉语言模型专门化为数据稀缺的 VQA 任务?A:利用未标注图像进行自我训练!
Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images!
Zaid Khan, Vijay Kumar BG, Samuel Schulter, Xiang Yu, Yun Fu...
TL;DR本文介绍了一种自学习数据增强策略,可以在小规模的视觉问答数据集上优化大视觉语言模型,从而增强对对抗性搜索、反事实例子和重述的鲁棒性,提高领域泛化能力,并保留更多数字推理技能。