Oct, 2023

多模态问题回答的统一信息提取

TL;DR利用我们提出的多模态问答(MQA)框架,将多模态信息提取(MIE)任务统一为一个统一的片段提取和多项选择问答流水线,从而提高了各种类型的现成大型多模态模型在 MIE 任务上的性能,特别是在零样本和少样本情况下,我们的框架能够使 LMM 在与 ChatGPT 和 GPT-4 等更大的语言模型竞争或超越的 10B 参数尺度上获得更好的表现,从而将 MQA 框架作为利用 LMMs 解决 MIE 和其他下游多模态任务的一般原则。