Jun, 2023

MetaVL:从语言模型向视觉语言模型转移上下文学习能力

TL;DR本文研究如何使图像 - 语言领域的大规模预训练模型具备上下文学习的能力,通过将自然语言处理领域的元学习应用于视觉 - 语言领域,并使用视觉编码器实现跨域转移学习,实验证明可以显著提高视觉问答任务的上下文学习能力,甚至可以补偿模型的大小并取得比基线模型更好的表现。