高效端到端视觉文档理解与根据聚类

Nov, 2023

高效端到端视觉文档理解与根据聚类

Efficient End-to-End Visual Document Understanding with Rationale Distillation

Wang Zhu, Alekh Agarwal, Mandar Joshi, Robin Jia, Jesse Thomason...

TL;DR通过小型的预训练图像到文本模型，我们在像素级视觉语言理解的端到端模型中学习选择性文本或布局识别和推理，取得了在信息图表、扫描文档和图像三个视觉文档理解基准中的一致性改进，超过直接预测答案的相似 Pix2Struct 模型 4% 以上。

Abstract

Understanding visually situated language requires recognizing text and visual elements, and interpreting complex layouts. State-of-the-art methods commonly use specialized pre-processing tools, such as optical character recognition (OCR) systems, that map document image inputs to extra

visually situated language text and visual elements layout recognition end-to-end model visual document understanding

发现论文，激发创造

从像素到语义框架到常识图谱的全栈视觉推理自然语言理由

本文介绍了首个以生成自然语言解释为中心的研究，该研究关注复杂的视觉推理任务，包括视觉常识推理、视觉文本蕴含和视觉问答。文章提出了 Rationale^VT Transformer，该模型通过结合预训练的语言模型、对象识别、基于视觉的语义框架和视觉常识图生成自由文本解释，实现了全面的图像理解，并且实验证明，自然语言解释是用于复杂视觉 - 文本推理任务的一种具有前景的研究方向。

Oct, 2020

UReader：基于多模态大型语言模型的通用无 OCR 视觉智能语言理解

通过利用 Multimodal Large Language Model (MLLM) 的浅层文本识别能力，我们在较低的训练成本下，通过在广泛的视觉语境理解任务上联合微调，设计了 UReader 模型，实现了 OCR-free 模式下在 8 个视觉语境理解任务上的最新表现。

Oct, 2023

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

视觉推理与基础合理性：看、记住和推理

该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式，引入基于视觉输入的原理来整合低级视觉能力，使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。

Jun, 2023

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

大型语言模型为文本丰富的 VQA 带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈，并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息，为训练保留 LLM 能力提供了启示。

Nov, 2023

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021

mPLUG-DocOwl 1.5：OCR-free 文档理解的统一结构学习

利用结构信息提升多模态大型语言模型在视觉文档理解中的性能，通过构建一种新的统一结构学习方法，设计了一个简单而有效的 H-Reducer 视觉到文本模块，并构建了相应的训练数据集和细致解释能力的推理调优数据集，提升了视觉文档理解基准任务的性能。

Mar, 2024

语言与视觉助手在视觉环境下的高效自然语言理解：阅读和推理中哪些是重要的

通过识别关键组件和创建具有受限推理成本的高效模型，重新定义了视觉语言模型的设计，以实现推理吞吐量的显著提高，并保持高性能。

Jun, 2024

DOMINO: 多步视觉语言推理的双系统

通过一个包含系统 1 和系统 2 的双系统，本论文提出了一种用于多步骤多模态推理的方法，其中系统 1 用于提取视觉信息，系统 2 用于深入推理。通过实验证明，我们的方法在图表数据集上与之前的工作相比表现出竞争力，在多步骤推理的少量数据上通过微调系统 2 模块（LLaMA-2 70B），我们的方法的准确性得到进一步提升，并在具有人工提出问题的挑战性数据集上超过最佳全监督端到端方法 5.7% 以及具有 FlanPaLM（540B）的流水线方法 7.5%。

Oct, 2023