DANIEL: 一个用于快速信息提取和标记手写文件的文档注意力网络

Jul, 2024

DANIEL: 一个用于快速信息提取和标记手写文件的文档注意力网络

DANIEL: A fast Document Attention Network for Information Extraction and Labelling of handwritten documents

Thomas Constum, Pierrick Tranouez, Thierry Paquet

TL;DRDANIEL是一个全面集成了语言模型的端到端架构，用于综合处理手写文档；对于信息提取方面的任务表现出了竞争力，并且比现有方法更快。

Abstract

information extraction from handwritten documents involves traditionally three distinct steps: Document Layout Analysis, Handwritten Text Recognition, and →

发现论文，激发创造

深度阅读器：通过关系抽取和自然语言从文档图像中提取信息

这篇论文介绍了一种名为 DeepReader 的新型企业级综合框架，其通过识别文档图像中的视觉实体并在不同实体之间填充元关系模型来促进文档图像中的信息提取，包括从表格、图表、脚注、文本框和标题等视觉实体中提取相关信息。

Dec, 2018

使用神经演绎程序综合从文档图像中进行一次性信息提取

采用两级神经推理方法和预训练深度神经网络，通过逻辑推理来学习实体和关系，生成抽取方案，从而解决发票、帐单、收据等文档图像信息提取的问题。

Jun, 2019

文本识别的解耦注意力网络

提出了一种新的解决注意力机制中的历史解码结果对齐精度不够的问题的方法，叫做解耦式注意力网络(DAN)，并在手写文本识别以及正常/非正常场景文本识别等多个文本识别任务中取得了最先进的性能表现。

Dec, 2019

基于数据效率的形式文档信息提取

本文介绍了如何使用少量标记数据和被标记语料库进行转移学习，以实现在规模上自动从表单状文件提取信息。

Jan, 2022

基于 Dessurt 的端到端文档识别与理解

Dessurt是一种相对简单的文档理解变压器，它可以对比以往方法更多种类的文档任务进行微调。该模型能够自动识别文本，无需像以前的方法那样使用外部识别模型。并且Dessurt比以前的方法更灵活，能够处理各种文档领域和任务。研究表明，在九种不同的数据集任务组合中，这种模型是有效的。

Mar, 2022

从完整手写页中提取键值信息

本篇论文提出了一种基于Transformer的方法，用于从数字化手写文件中提取信息，将特征提取、手写识别和命名实体识别的步骤结合成了一个模型，并且在不同分辨率下比较了传统的两阶段方法，实验证明全页注意力模型能够从键值注释中进行学习，并且在多个数据集上胜过现有的方法。

Apr, 2023

文档智能：基于Transformer、基于图的模型和卷积神经网络的文档布局分析的比较研究

本研究旨在对文档布局分析的最先进模型进行比较评估，并利用机器翻译技术探索跨语言文档布局分析的潜力。

Aug, 2023

通过多任务预训练提升文档信息分析：一种在视觉丰富的文档中提取信息的鲁棒方法

该研究介绍了一种深度学习模型，针对文档信息分析进行了定制，强调文档分类、实体关系提取和文档视觉问答。该模型利用基于变换器的模型来编码文档图像中的所有信息，包括文本、视觉和布局信息。该模型在预训练阶段加入了三个附加任务，并通过集体预训练方案考虑了所有任务的损失。通过在不同数据集上进行预训练和微调任务，该模型在所有任务上取得了令人印象深刻的结果，对于文档分类的准确率达到了95.87%，实体关系提取的 F1 得分分别为0.9306、0.9804、0.9794和0.8742，文档视觉问答的 ANLS 得分为0.8468，结果凸显了该模型在理解和解释复杂文档布局和内容方面的有效性，使其成为文档分析任务的有希望的工具。

Oct, 2023

基于LayoutLMv3的增强关系抽取模型在视觉丰富文档中的应用

通过对 FUNSD 和 CORD 数据集上进行的广泛剖析研究及对 LayoutLMv3 的初始化，我们提出了一个模型，用于在视觉丰富的文档中进行关系抽取，其结果超过了当前行业的最佳效果，且没有特定的预训练任务和较少的参数。

Apr, 2024

手写文件的端到端信息提取：理解1880年至1940年的巴黎结婚记录

EXO-POPP项目旨在建立一个包含法国巴黎及其郊区1880年至1940年之间的30万份婚姻记录的综合数据库，其中包括超过13万多个扫描的双页图像。该论文介绍了M-POPP数据集，这是M-POPP数据库的一个子集，用于手写和印刷文件的全页文本识别和信息提取，并已公开提供。通过从页面图像直接进行手写文本识别和信息提取，我们提出了一种完整的端到端架构，该架构是从DAN进行了适应。我们通过在Esposalles上实现全页信息提取的最新技术水平来展示该架构的信息提取能力，并将该架构作为M-POPP数据集的基准。我们还评估并比较了不同的命名实体编码策略对识别手写文本和提取信息的全页性能的影响。

Apr, 2024