ACLMay, 2023

探究位置信息在视觉语言模型中的作用

TL;DR研究了视觉语言模型中的位置信息对图像 - 文本匹配任务的影响,并提出了两种解决策略,即位置信息预训练和基于交叉模态匹配的对比学习。结果显示,即使位置信息存在,模型仍不能正确地分类具有详细位置语句的图像。