Sep, 2022

如何将预训练的视觉语言模型改编为仅文本输入模式?

TL;DR为了找到最好的方法来将视觉和语言(VL)多模态预训练模型适应于仅文本输入,我们研究并比较了适应VL模型到文本输入的七种可能的方法。我们的评估结果表明,对于零样本文本-only任务,VL模型需要小心适应,而对于非零样本任务,模型对适应方法不敏感。我们还发现,对于不同的模型,适应方法的表现各不相同,而单模态模型趋同于VL模型,提示当前的VL模型不一定从其多模态训练中获得更好的语言理解。