CVPRJun, 2023

如何将大型视觉语言模型专门化为数据稀缺的 VQA 任务?A:利用未标注图像进行自我训练!

TL;DR本文介绍了一种自学习数据增强策略,可以在小规模的视觉问答数据集上优化大视觉语言模型,从而增强对对抗性搜索、反事实例子和重述的鲁棒性,提高领域泛化能力,并保留更多数字推理技能。