EMNLPMay, 2022

PEVL:基于位置增强的预训练和提示微调的视觉语言模型

TL;DR本研究提出了一种名为 PEVL 的显式目标位置建模方法,来提高 VLP 模型在特定视觉 - 语言任务(如指称表达理解和视觉常识推理)上的性能。该方法通过将离散化目标位置与语言内容整合到一个语言建模框架中,在预训练和提示微调阶段实现显式的视觉 - 语言对齐,并为各种下游任务提供了灵活的提示微调方式。实验结果显示,PEVL 在无检测器的 VLP 模型上能够取得最先进的性能,即在特定视觉 - 语言任务上取得优异的表现,也能提高在具有定位敏感输入的任务上的性能。