Sep, 2023

视觉和语言模型中短语定位和任务表现的联合研究

TL;DR通过在图像环境中关联文字和短语到图像区域,本文提出了一个框架来共同研究任务表现和短语的关联,并提出了三个基准来研究二者之间的关系。我们的研究结果显示,现有模型在关联短语和解决任务方面存在不一致性。我们展示了如何通过对关联短语注释进行穷举式训练来解决这个问题,并分析了它所产生的动态性。