无 OCR 文档理解变压器

ECCVNov, 2021

OCR-free Document Understanding Transformer

Geewook Kim, Teakgyu Hong, Moonbin Yim, Jeongyeon Nam, Jinyoung Park...

TL;DR本文介绍了一种名为 “Donut” 的 OCR-free VDU 模型，使用 Transformer 作为简单有效的架构对文档图像进行全面理解，并采用交叉熵损失预训练，通过实验表明该模型在速度和准确性方面达到了各种 VDU 任务的最新表现。

Abstract

Understanding document images (e.g., invoices) is a core but challenging task since it requires complex functions such as reading text and a holistic understanding of the document. Current visual document understanding (VDU) methods outsource the task of reading text to off-the-shelf O

visual document understanding ocr-free transformer donut pre-training

发现论文，激发创造

DONUT 空洞：通过发掘知识并优化学习效率的 DONUT 稀疏化

DONUT-hole 是一种稀疏 OCR-free 视觉文档理解（VDU）模型，通过优化策略实现了模型密度的 54% 减少，同时保持性能，并在文档图像关键信息提取（KIE）任务中展示其对物流公司开发更高效 VDU 系统的潜力。

Nov, 2023

DocFormerv2: 文档理解的本地特征

提出了一种多模态 Transformer 模型 - DocFormerv2，应用于视觉文档理解领域，在多个数据集上都取得了最先进的结果，并通过大量消融实验证明了其预训练和无监督任务设计的有效性。

Jun, 2023

DocFormer: 文档理解的端到端 Transformer

本文介绍了基于多模态变压器的 DocFormer 架构，它以无监督预训练方式运行，能够更好地理解各种格式和布局的文档，并结合了文本、视觉和空间特征，实现了多模态自注意层和共享学习空间嵌入等特点，使其在四个数据集上均取得了业界领先的结果。

Jun, 2021

文档索引的未来：GPT 和 Donut 革新目录内容处理

该论文介绍了一种创新方法，利用两个先进的 AI 模型 (Donut 和 OpenAI GPT-3.5 Turbo) 自动从复杂的规范文档中提取结构化信息，通过获取建筑规范文档的目录，将目录文本结构化为 JSON 数据，实现了卓越的准确性 (85% 对于 Donut，89% 对于 GPT-3.5 Turbo)，这一里程碑式的成就将文档索引带入了一个重要飞跃，展示了 AI 在不同类型文档中自动化信息提取任务上的巨大潜力，提高了效率，解放了各行各业的重要资源。

Mar, 2024

文档理解的统一预训练框架

UDoc 是一个新的文档理解的统一预训练框架，它通过使用三个自监督损失约束表示模型，将单词和视觉特征作为输入，使神经网络从无标签的数据中学习到更好的文档表示，并取得了下游任务的提升。

Apr, 2022

DUBLIN -- 语言 - 图像网络理解文档

通过预训练 DUBLIN 模型，利用文档图像中的空间和语义信息，包括 Masked Document Content Generation Task、Bounding Box Task 和 Rendered Question Answering Task，实现对象检测和文档图像理解，在各项基准测试中优于现有模型，尤其在 WebSRC 数据集，其 EM 值和 F1 值分别为 77.75 和 84.25，与文本型 SOTA 方法具有可比性。

May, 2023

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

统一视觉、文本和版式，实现通用文档处理

该研究提出了通用文档处理（UDOP）方法，使用 Vision-Text-Layout Transformer 对文本、图像和布局进行建模，实现了高质量的神经文档编辑和内容定制，是首个在文档 AI 领域一次性完成高质量文档编辑和内容定制的模型，并在金融报告、学术论文和网站等数据领域中实现了 8 种文档 AI 任务的最新成果。

Dec, 2022

诺加：学术文档的神经光学理解

我们提出了一种名为 Nougat 的神经光学理解学术文档的模型，它使用光学字符识别（OCR）将科学文档转换为标记语言。该方法有效地提高了数字时代科学知识的可访问性，将人类可读文档和机器可读文本之间的鸿沟缩小。我们发布了相关模型和代码以促进科学文本识别的未来工作。

Aug, 2023

DTrOCR：解码器专用的 Transformer 用于光学字符识别

通过使用 Decoder-only Transformer 作为生成式语言模型，本研究提出了一种相对简单而有效的文本识别方法 DTrOCR，实验结果表明 DTrOCR 在识别印刷、手写和场景文本方面比当前的最先进方法表现出更好的性能。

Aug, 2023