Sep, 2023

分析仅基于 LLM 方法在基于图像的文件问答中的效果

TL;DR近期文件问答模型包括两个关键组成部分:视觉编码器,用于捕捉图像中的布局和视觉元素,以及大型语言模型(LLM),有助于将问题与图像上下文化并通过补充外部世界知识来生成准确答案。然而,这些任务中视觉编码器和语言模型的相对贡献仍不清楚。本文探讨了以下几个方面:(1)仅使用 LLM 的方法对文档问答任务的有效性;(2)在文档图像中进行文本信息的序列化,并将其直接提供给经过指令调整的 LLM,从而绕过显式视觉编码器的需求;(3)对这种方法的可行性进行了全面的定量分析。我们综合分析了六个不同的基准数据集,使用了不同规模的 LLMs。我们的研究结果表明,仅依赖 LLM 的策略在各种数据集上的结果与最先进的性能相当或非常接近。我们认为,这一评估框架将作为为未来强调布局和图像内容信息的研究工作选择适当数据集的指导资源。