提升文档理解能力的研究：基于 MLLMs 的文本定位探索

Nov, 2023

提升文档理解能力的研究：基于 MLLMs 的文本定位探索

Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs

Yonghui Wang, Wengang Zhou, Hao Feng, Keyi Zhou, Houqiang Li

TL;DR在文档理解领域，本文提出了一种文本定位的文档理解模型，命名为 TGDoc，通过增强多模态大型语言模型（MLLMs）的能力来识别图像内文本的空间位置，以提高文本内容解释的准确性，从而提高对文本丰富图像的理解能力。实验证据表明，文本定位方法在多个文本丰富基准测试中取得了最先进的性能，验证了我们方法的有效性。

Abstract

In the field of document understanding, significant advances have been made in the fine-tuning of Multimodal Large Language Models (mllms) with instruction-following data. Nevertheless, the potential of

document understanding text-grounding mllms text-rich scenarios text location

发现论文，激发创造

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

DocLLM: 多模态文档理解的自适应生成语言模型

研究论文通过设计 DocLLM 模型，结合文本语义和空间布局，以有效地理解企业文件的丰富语义，摆脱昂贵的图像编码器，侧重于使用边界框信息来处理不规则布局和异构内容的视觉文件，通过预训练和微调，优于当前最优模型在多个任务中的性能，并且对于先前未见过的数据集具有较好的泛化能力。

Dec, 2023

LLM4VG：大型语言模型对视频定位的评估

近年来，研究人员试图调查 LLM 在处理视频方面的能力，并提出了几种视频 LLM 模型。然而，LLM 在处理视频对齐（VG）方面的能力仍然不清楚，也没有在文献中进行探索。为了填补这一空白，本文提出了 LLM4VG 基准测试，对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG，我们设计了大量实验，检查了两组视频 LLM 模型在视频对齐上的表现：（i）基于文本 - 视频对训练的视频 LLM（标记为 VidLLM），以及（ii）与预训练的视觉描述模型（如视频 / 图像字幕模型）结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法，包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较，并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论：（i）现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走，需要进一步微调这些模型以包含更多的与时间相关的视频任务；（ii）LLM 和视觉模型的组合显示出初步的视频对齐能力，通过采用更可靠的模型和进一步的提示指导，这种能力具有可观的改进潜力。

Dec, 2023

提高基于大规模语言模型的有效适应性以改善语境理解

这篇论文关注通过一种名为 AGREE 的新框架，综合地改善大型语言模型在真实世界中的应用，以解决其生成的 “幻觉” 答案不符事实的问题。通过在生成的自身立足回答中考虑所生成的支持信息，设计了一种迭代的测试时间调整能力来有效实现该框架，并通过提供引用来调整大型语言模型对检索文档中主张的立足。结果表明，基于调整的 AGREE 框架相较于基于提示的方法，生成了更好的基于立足的回答和更准确的引用。

Nov, 2023

多模式大型语言模型中的即插即用推理基础

插拔式推理引擎 P2G 在多模态大型语言模型中的可视化推理任务表现优异，特别是在高分辨率图像中的文本和对象细节捕捉方面，与 GPT-4V 的性能相当，为模型扩展之外的有前景的替代方案。

Mar, 2024

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023

LAPDoc：文档的布局感知提示

最近，在大规模使用纯文本数据训练大型语言模型（LLMs）的研究进展中，出现了强大的在许多领域和任务中的泛化能力，包括特定于文档的任务。与此相反，有一种趋势是训练多模态转换器架构，专门为文档理解而设计，旨在将文本输入与相应的文档布局融合在一起。本文研究了使用纯文本 LLMs 进行特定于文档任务的可能性，通过使用布局增强的方式。我们探索了插入修改和基于规则的方法，以将纯文本 LLM 提示与布局信息进行增强。我们的实验研究了商用 ChatGPT 模型和开源 LLM Solar 的效果。我们证明了使用我们的方法，两个 LLMs 在各种标准文档基准测试中均展现出改进的性能。此外，我们研究了有噪音的 OCR 和布局错误的影响，以及 LLMs 在利用文档布局方面的局限性。我们的结果表明，通过布局增强，相较于仅使用纯文本文档，纯文本 LLMs 在文档理解方面的性能可以提高多达 15%。总之，在纯文本 LLM 或多模态文档转换器之间进行最佳模型选择时，应考虑这种方法。

Feb, 2024

多模态生成：将语言模型与图像相结合

该研究提出了一种有效的方法，将预训练的纯文本语言模型转移到视觉领域，使其能够处理和生成任意交错的图像和文本数据，并在上下文图像检索和多模态对话等方面实现了强有力的效果。

Jan, 2023

ReGround: 提升文本和空间定位的无成本方法

通过改变网络架构，将分布式注意力和交叉注意力从串行变为并行，可以显著减少文本和空间对齐之间的权衡。

Mar, 2024

基于参照标记的三维链接语言模型

在本研究中，我们提出了基于 3D 大型多模型（3D LMM）的 Grounded 3D-LLM 模型，在一个统一生成框架中探索了 3D 场景理解的潜力，通过使用场景引用标记作为特殊名词短语来参考 3D 场景，将 3D 视觉任务转化为语言格式，从而实现了处理交替 3D 和文本数据序列的自然方法，并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集，进一步引入了对比性语言场景预训练（CLASP）以有效利用这些数据，从而将 3D 视觉与语言模型相结合，通过在多个 3D 基准测试上进行全面评估，我们展示了 Grounded 3D-LLM 的领先性能和广泛适用性。

May, 2024