IJCAIMay, 2022

基于声明的提示调整技术用于视觉问答

TL;DR该论文提出了一种名为 DPT 的创新型视觉语言模型微调范式,它通过文本调整和任务调整重新定义视觉问题的目标函数形式来共同优化 VQA 模型的预训练和微调目标,以提高预训练 VL 模型对于下游任务的有效适应性,实验结果表明,DPT 在准确性方面显著优于微调对应物,无论是在完全监督(2.68%)还是零射击 / 少射击(超过 31%)的情况下。