UReader：基于多模态大型语言模型的通用无 OCR 视觉智能语言理解

Oct, 2023

UReader：基于多模态大型语言模型的通用无 OCR 视觉智能语言理解

UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model

Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan...

TL;DR通过利用 Multimodal Large Language Model (MLLM) 的浅层文本识别能力，我们在较低的训练成本下，通过在广泛的视觉语境理解任务上联合微调，设计了 UReader 模型，实现了 OCR-free 模式下在 8 个视觉语境理解任务上的最新表现。

Abstract

Text is ubiquitous in our visual world, conveying crucial information, such as in documents, websites, and everyday photographs. In this work, we propose ureader, a first exploration of universal ocr-free visuall

ureader ocr-free visually-situated language understanding multimodal large language model text recognition

发现论文，激发创造

mPLUG-DocOwl: 模块化的多模态大型语言模型对于文档理解

我们提出了基于 mPLUG-Owl 的 mPLUG-DocOwl，通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略，增强了 OCR-free 文档理解能力，并构建了用于比较模型能力的 OCR-free 文档指令理解评估集 LLMDoc。实验结果表明，我们的模型优于现有的多模型模型，在不同下游任务上具有良好的泛化能力。

Jul, 2023

高效端到端视觉文档理解与根据聚类

通过小型的预训练图像到文本模型，我们在像素级视觉语言理解的端到端模型中学习选择性文本或布局识别和推理，取得了在信息图表、扫描文档和图像三个视觉文档理解基准中的一致性改进，超过直接预测答案的相似 Pix2Struct 模型 4% 以上。

Nov, 2023

mPLUG-DocOwl 1.5：OCR-free 文档理解的统一结构学习

利用结构信息提升多模态大型语言模型在视觉文档理解中的性能，通过构建一种新的统一结构学习方法，设计了一个简单而有效的 H-Reducer 视觉到文本模块，并构建了相应的训练数据集和细致解释能力的推理调优数据集，提升了视觉文档理解基准任务的性能。

Mar, 2024

UniDoc：一种用于同时文本检测、识别、标定和理解的通用大型多模态模型

在大型语言模型（LLMs）时代，我们介绍了一种名为 UniDoc 的新型多模态模型，该模型具备文本检测和识别能力，并通过任务之间的有益互动来提升整体性能。利用大规模指令遵循数据集进行统一的多模态指导调优，实验结果表明 UniDoc 在多个挑战性基准测试中取得了最先进的成绩，是第一个能够同时进行文本检测、识别、定位和理解的大型多模态模型。

Aug, 2023

Unicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现

通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，取得了领先或可比的结果，展示了交叉模态预训练的强大能力。

Aug, 2019

大型语言模型为文本丰富的 VQA 带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈，并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息，为训练保留 LLM 能力提供了启示。

Nov, 2023

语言理解通用多模态表示

本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务，使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码，通过注意力层将两种模态的表征进行融合，实验结果表明，该方法在不同的任务和语言中都具有很好的效果。

Jan, 2023

关于大型多模型模型中 OCR 的隐秘之谜

该论文通过对现有公开的多模态模型进行综合研究，评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能，发现这些模型主要依赖于语义理解进行字识别，对单个字符形状的感知较差，同时对文本长度漠不关心，无法有效检测图像中的细粒度特征，在传统文本任务中尚无法与领域特定方法相媲美，面临更大的挑战。

May, 2023

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

TextMonkey: 一个无需 OCR 的大型多模态模型用于理解文档

我们介绍了 TextMonkey，一个大型多模态模型（LMM），该模型针对以文本为中心的任务，包括文档问题回答（DocVQA）和场景文本分析。通过采用零初始化的 Shifted Window Attention，我们在更高的输入分辨率下实现了跨窗口连接，并稳定了早期训练；我们假设图像可能包含冗余的标记，通过使用相似性过滤显著的标记，我们不仅可以简化标记长度，还可以提高模型的性能。此外，通过扩展模型的能力，包括文本定位和基准化，并将位置信息融入响应中，我们增强了可解释性并减少了产生虚幻结果的情况。另外，TextMonkey 可以进行微调，以具备理解点击截图命令的能力。总体而言，我们的方法显著提升了在各种基准数据集上的性能，尤其在 OCRBench 上获得了 561 分的分数，超过了先前用于文档理解的开源大型多模态模型。代码将在此 URL 发布。

Mar, 2024