mPLUG-DocOwl 1.5：OCR-free 文档理解的统一结构学习

Mar, 2024

mPLUG-DocOwl 1.5：OCR-free 文档理解的统一结构学习

mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding

Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang...

TL;DR利用结构信息提升多模态大型语言模型在视觉文档理解中的性能，通过构建一种新的统一结构学习方法，设计了一个简单而有效的 H-Reducer 视觉到文本模块，并构建了相应的训练数据集和细致解释能力的推理调优数据集，提升了视觉文档理解基准任务的性能。

Abstract

structure information is critical for understanding the semantics of text-rich images, such as documents, tables, and charts. Existing Multimodal Large Language Models (MLLMs) for visual document understanding ar

visual document understanding structure information unified structure learning h-reducer docowl 1.5

发现论文，激发创造

mPLUG-DocOwl: 模块化的多模态大型语言模型对于文档理解

我们提出了基于 mPLUG-Owl 的 mPLUG-DocOwl，通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略，增强了 OCR-free 文档理解能力，并构建了用于比较模型能力的 OCR-free 文档指令理解评估集 LLMDoc。实验结果表明，我们的模型优于现有的多模型模型，在不同下游任务上具有良好的泛化能力。

Jul, 2023

UReader：基于多模态大型语言模型的通用无 OCR 视觉智能语言理解

通过利用 Multimodal Large Language Model (MLLM) 的浅层文本识别能力，我们在较低的训练成本下，通过在广泛的视觉语境理解任务上联合微调，设计了 UReader 模型，实现了 OCR-free 模式下在 8 个视觉语境理解任务上的最新表现。

Oct, 2023

mPLUG-Owl：模块化赋予大型语言模型多模态能力

本研究介绍了一种新的培训范式 mPLUG-Owl，该方法通过基于模块化的学习将 Large language models（LLMs）配备了多模态能力。实验表明，通过此方法可以获得多种单模态和多模态能力，包括指导视觉能力、多回合对话和知识推理等，同时出现了一些意想不到且令人兴奋的特性，如多图像相关性和场景文本理解。

Apr, 2023

高效端到端视觉文档理解与根据聚类

通过小型的预训练图像到文本模型，我们在像素级视觉语言理解的端到端模型中学习选择性文本或布局识别和推理，取得了在信息图表、扫描文档和图像三个视觉文档理解基准中的一致性改进，超过直接预测答案的相似 Pix2Struct 模型 4% 以上。

Nov, 2023

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

Pix2Struct: 屏幕截图解析用于视觉语言理解的预训练

Pix2Struct 是一种预先训练的图像到文本模型，能够解析丰富的文本，可用于多个领域任务，实现了最先进的结果。

Oct, 2022

文档理解的统一预训练框架

UDoc 是一个新的文档理解的统一预训练框架，它通过使用三个自监督损失约束表示模型，将单词和视觉特征作为输入，使神经网络从无标签的数据中学习到更好的文档表示，并取得了下游任务的提升。

Apr, 2022

学习结构化文本表示

本文提出一种可以在没有语篇分析器或额外注释的情况下，从数据中学习具有结构感知能力的文档表示的模型，该模型通过将可微分非项目句法分析算法嵌入神经模型，使用注意机制来结合结构偏置，从而产生具有解释性和意义的中间结构，并在不同任务和数据集上实验验证表明，该模型在文档建模任务中取得了最先进的结果。

May, 2017

DocParser: 文档呈现的分层结构解析

本文提出了 DocParser，它是一种端到端的系统，可以解析包括所有文本元素、嵌套图形、表格和表格单元结构在内的完整文档结构，并提出了一种基于弱监督的可扩展学习框架以提高文档结构解析性能。研究表明，相比于没有弱监督的基线，这种方法可以提高 39.1％的文档实体检测平均精度，并提高 35.8％的分层关系分类 F1 得分。

Nov, 2019

层次化多模态预训练以理解视觉丰富的网页

通过整合文本、结构和图像等多模态信息，使用多模态预训练网络进行自动文档理解和信息提取，实现了对网页的深入理解，显著提高了网页理解任务的性能。

Feb, 2024