Sep, 2023

MMHQA-ICL: 文本、表格与图像的混合问答的多模态上下文学习

TL;DR多模态问题回答(MMHQA)是一个具有挑战性的任务,我们提出了一个 MMHQA-ICL 框架,包括强大的异构数据检索器和图像描述模块,并首次使用了端到端 LLM 提示方法。实验结果表明,我们的框架在多模态问题回答上表现出色,优于所有基准线和使用完整数据集训练的方法,达到了多模态 QA 数据集在少样本设置下的最新成果。