TextMonkey: 一个无需 OCR 的大型多模态模型用于理解文档

Mar, 2024

TextMonkey: 一个无需 OCR 的大型多模态模型用于理解文档

TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

Yuliang Liu, Biao Yang, Qiang Liu, Zhang Li, Zhiyin Ma...

TL;DR我们介绍了 TextMonkey，一个大型多模态模型（LMM），该模型针对以文本为中心的任务，包括文档问题回答（DocVQA）和场景文本分析。通过采用零初始化的 Shifted Window Attention，我们在更高的输入分辨率下实现了跨窗口连接，并稳定了早期训练；我们假设图像可能包含冗余的标记，通过使用相似性过滤显著的标记，我们不仅可以简化标记长度，还可以提高模型的性能。此外，通过扩展模型的能力，包括文本定位和基准化，并将位置信息融入响应中，我们增强了可解释性并减少了产生虚幻结果的情况。另外，TextMonkey 可以进行微调，以具备理解点击截图命令的能力。总体而言，我们的方法显著提升了在各种基准数据集上的性能，尤其在 OCRBench 上获得了 561 分的分数，超过了先前用于文档理解的开源大型多模态模型。代码将在此 URL 发布。

Abstract

We present textmonkey, a large multimodal model (LMM) tailored for text-centric tasks, including document question answering (

textmonkey multimodal model text-centric tasks docvqa scene text analysis

发现论文，激发创造

大型多模态模型的关键要素：图像分辨率和文本标签

本研究提出了一种名为 Monkey 的多模态模型，可以提高输入分辨率，并通过多级描述生成方法，提供丰富的信息以帮助模型学习场景和物体之间的上下文关联。在广泛的测试中，Monkey 在图像字幕生成、通用视觉问答和面向文档的视觉问答等基本任务上展现了竞争性的性能。

Nov, 2023

关于大型多模型模型中 OCR 的隐秘之谜

该论文通过对现有公开的多模态模型进行综合研究，评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能，发现这些模型主要依赖于语义理解进行字识别，对单个字符形状的感知较差，同时对文本长度漠不关心，无法有效检测图像中的细粒度特征，在传统文本任务中尚无法与领域特定方法相媲美，面临更大的挑战。

May, 2023

大型语言模型为文本丰富的 VQA 带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈，并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息，为训练保留 LLM 能力提供了启示。

Nov, 2023

mPLUG-DocOwl: 模块化的多模态大型语言模型对于文档理解

我们提出了基于 mPLUG-Owl 的 mPLUG-DocOwl，通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略，增强了 OCR-free 文档理解能力，并构建了用于比较模型能力的 OCR-free 文档指令理解评估集 LLMDoc。实验结果表明，我们的模型优于现有的多模型模型，在不同下游任务上具有良好的泛化能力。

Jul, 2023

DocPedia: 在频域释放大型多模态模型的能力，实现多功能文档理解

DocPedia 是一种新型的大型多模态模型，用于 OCR-free 文档理解，能够处理高分辨率图像。通过在频域而不是像素空间中直接处理视觉输入，DocPedia 能够利用有限数量的视觉标记捕捉更多的视觉和文本信息。通过开发双阶段训练策略和丰富的训练任务指导 / 注释，我们不断增强模型的感知和理解能力，实验证实了联合学习感知和理解任务的互利益。结果进一步证明了我们的 DocPedia 相比其他方法的有效性和优越性能。

Nov, 2023

UReader：基于多模态大型语言模型的通用无 OCR 视觉智能语言理解

通过利用 Multimodal Large Language Model (MLLM) 的浅层文本识别能力，我们在较低的训练成本下，通过在广泛的视觉语境理解任务上联合微调，设计了 UReader 模型，实现了 OCR-free 模式下在 8 个视觉语境理解任务上的最新表现。

Oct, 2023

UniDoc：一种用于同时文本检测、识别、标定和理解的通用大型多模态模型

在大型语言模型（LLMs）时代，我们介绍了一种名为 UniDoc 的新型多模态模型，该模型具备文本检测和识别能力，并通过任务之间的有益互动来提升整体性能。利用大规模指令遵循数据集进行统一的多模态指导调优，实验结果表明 UniDoc 在多个挑战性基准测试中取得了最先进的成绩，是第一个能够同时进行文本检测、识别、定位和理解的大型多模态模型。

Aug, 2023

TextCoT: 提升多模态文本丰富图像理解的局部放大

提出了一种名为 TextCoT 的 Chain-of-Thought 框架，用于理解富文本图像，利用 LMMs 的字幕能力来把握图像的全局背景和细节地区，从而提供准确的问题回答，方法经过了广泛实验验证了其有效性和强大的普适能力。

Apr, 2024

探索大型多模型模型对于密集文本的能力

本研究通过在 DT-VQA 数据集上对 GPT4V、Gemini 和不同的开源 LMM 进行全面评估，揭示了它们的优点和缺点，并评估了 LMM 的两种策略：prompt engineering 和 downstream fine-tuning。研究发现，即使使用自动标记的训练数据集，模型性能也能显著提高，希望本研究能促进 LMM 在密集文本任务中的研究。

May, 2024

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021