分析仅基于 LLM 方法在基于图像的文件问答中的效果

Sep, 2023

分析仅基于 LLM 方法在基于图像的文件问答中的效果

Analyzing the Efficacy of an LLM-Only Approach for Image-based Document Question Answering

Nidhi Hegde, Sujoy Paul, Gagan Madan, Gaurav Aggarwal

TL;DR近期文件问答模型包括两个关键组成部分：视觉编码器，用于捕捉图像中的布局和视觉元素，以及大型语言模型（LLM），有助于将问题与图像上下文化并通过补充外部世界知识来生成准确答案。然而，这些任务中视觉编码器和语言模型的相对贡献仍不清楚。本文探讨了以下几个方面：（1）仅使用 LLM 的方法对文档问答任务的有效性；（2）在文档图像中进行文本信息的序列化，并将其直接提供给经过指令调整的 LLM，从而绕过显式视觉编码器的需求；（3）对这种方法的可行性进行了全面的定量分析。我们综合分析了六个不同的基准数据集，使用了不同规模的 LLMs。我们的研究结果表明，仅依赖 LLM 的策略在各种数据集上的结果与最先进的性能相当或非常接近。我们认为，这一评估框架将作为为未来强调布局和图像内容信息的研究工作选择适当数据集的指导资源。

Abstract

Recent document question answering models consist of two key components: the vision encoder, which captures layout and visual elements in images, and a →

document question answering vision encoder large language model llm-only approach layout and image content information

发现论文，激发创造

大型语言模型为文本丰富的 VQA 带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈，并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息，为训练保留 LLM 能力提供了启示。

Nov, 2023

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

冻结 LLMs 的少样本 VQA 方法比较

通过对 LLMs 的两种输入图像的方法进行比较，本研究发现对于具有 3B 参数 LLMs 的 Flan-T5 XL 模型，将图像特征嵌入直接连接到 LLM 嵌入空间并不能保证相比使用图像标题获得更好的性能，在零样本情况下，使用文本图像标题效果更好。在少样本情况下，如何选择上下文示例决定了哪个更好。

Mar, 2024

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

利用 LLM 提升条件问答

该研究探讨了大型语言模型 (LLMs) 在具有挑战性的条件问答领域中的能力和局限性。利用条件问答 (CQA) 数据集，重点关注 T5 和 UL2 等生成模型，我们评估了 LLMs 在不同问题类型上的性能。研究发现，经过微调的 LLMs 在某些情况下可以超越现有技术在一些方面的表现，即使没有完全编码所有输入上下文，对于是 / 否问题的精确匹配 (EM) 和 F1 分数有 7-8 个点的增加。然而，这些模型在抽取性问答方面遇到了挑战，在与现有技术相比落后于 10 个以上的点，并且在减少注入错误信息的风险方面也存在问题。与神谕检索器进行的一项研究强调了有效证据检索的关键作用，强调了该领域需要先进解决方案的必要性。此外，我们强调了评估评价指标对性能评估的重要影响，并倡导使用更全面的评估框架。任务的复杂性、观察到的性能差异以及在条件问答任务中改进训练任务和探索基于提示的技术以提高 LLMs 性能的未来工作的需求，突显了这一领域面临的持续挑战。

Dec, 2023

为高效、个性化信息检索调整语言模型的方法与影响

大型语言模型（LLMs）在信息检索方面的优化、模型幻觉、用户隐私等关键问题的研究。

Nov, 2023

大型语言模型的数量化知识检索

大型语言模型可用于定量信息检索，以帮助数据分析任务，如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架，将大型语言模型视为科学文献的潜在空间界面，并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。

Feb, 2024

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了 MLLMs 的视觉感知能力。

Jan, 2024

无需进一步训练的预训练基础模型应对 VQA

通过结合预训练大型语言模型和其他基础模型，本研究探索了一种无需进一步训练即可解决视觉问答问题的方法，并对不同的解码策略在 VQAv2 数据集上进行了性能评估。

Sep, 2023

从图像空间线性映射到文本空间

该研究探讨了文本型的语言模型对外部世界的表示程度。研究发现，通过单一的线性变换，可以将视觉模型的特征表示连续地传递给被固定的文本型语言模型，从而取得了与同时调整图像和文本的模型相同的指标。研究表明，语言模型的概念表示与以图像为基础的模型在结构上相似，甚至能够转移视觉信息。

Sep, 2022