通过多任务预训练提升文档信息分析：一种在视觉丰富的文档中提取信息的鲁棒方法

Oct, 2023

通过多任务预训练提升文档信息分析：一种在视觉丰富的文档中提取信息的鲁棒方法

Enhancing Document Information Analysis with Multi-Task Pre-training: A Robust Approach for Information Extraction in Visually-Rich Documents

PDF

Tofik Ali, Partha Pratim Roy

TL;DR该研究介绍了一种深度学习模型，针对文档信息分析进行了定制，强调文档分类、实体关系提取和文档视觉问答。该模型利用基于变换器的模型来编码文档图像中的所有信息，包括文本、视觉和布局信息。该模型在预训练阶段加入了三个附加任务，并通过集体预训练方案考虑了所有任务的损失。通过在不同数据集上进行预训练和微调任务，该模型在所有任务上取得了令人印象深刻的结果，对于文档分类的准确率达到了 95.87%，实体关系提取的 F1 得分分别为 0.9306、0.9804、0.9794 和 0.8742，文档视觉问答的 ANLS 得分为 0.8468，结果凸显了该模型在理解和解释复杂文档布局和内容方面的有效性，使其成为文档分析任务的有希望的工具。

Abstract

This paper introduces a deep learning model tailored for document information analysis, emphasizing document classification, entity relation extr

deep learning model document information analysis document classification entity relation extraction document visual question answering

发现论文，激发创造

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

使用特定的预训练任务提高商业文件信息提取

在这篇论文中，我们使用了一种预先训练在商业文件集合上的语言模型 LayoutLM，并引入了两个新的预训练任务，进一步提高其提取相关信息的能力。第一个任务旨在更好地理解文档的复杂布局，第二个任务侧重于数字值及其数量级。通过这些任务，模型可以学习到更好上下文化的扫描文档表示。我们还引入了一种新的后处理算法，用于解码信息提取中的 BIESO 标签，对于复杂实体的处理效果更好。我们的方法显著提高了对公共数据集（从 93.88 提高到 95.50 F1 得分）和私有数据集（从 84.35 提高到 84.84 F1 得分）中的支出收据、发票和采购订单的提取性能。

Sep, 2023

LayoutLMv2: 多模态预训练用于视觉丰富的文档理解

LayoutLMv2 提出了一种新的预训练架构，通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制，在预训练阶段更好地捕获跨模态交互，实现在 FUNSD，CORD，SROIE，Kleister-NDA，RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。

Dec, 2020

基于多模态多任务学习的文档表示学习预训练框架

本文提出了基于多任务学习和预训练技术的框架，利用文本、版面和图像的多模态信息学习通用文档表示，以支持多种下游文档任务，并在标准文档数据集上进行了广泛实验。

Sep, 2020

基于嵌入式大规模检索的预训练任务

本文研究基于嵌入的检索模型，并探究对段落级别的预训练任务在训练强大的嵌入式 Transformer 模型上的关键作用。

Feb, 2020

文本和图像预训练在多模态算法推理中的整合

我们提出了一个基于多模态算法推理的神经网络解决方案，用于解决专为 6-8 岁儿童设计的视觉语言难题，我们的模型基于两个预训练模型，分别从文本和图像中提取特征，并通过融合层和注意机制进行特征整合。实验结果表明，在智能挑战数据集的拼图分割样式下，我们提出的综合分类器具有卓越的性能，验证了多模态预训练表示的有效性。

Jun, 2024

领域匹配的密集检索预训练任务

通过在 65 百万个合成问题和 2 亿个来自 Reddit 对话的帖子对大型 bi-encoder 模型进行适当的预训练，可以在信息检索和对话检索基准测试中实现比监督基准线显着更好的表现。

Jul, 2021

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

LAMPRET：面向布局的多模态文档预训练理解

本论文提出了一种基于多模态 Transformer 的分层框架（LAMPreT），并通过分层预训练来训练模型，以实现对文档布局的理解及其内部内容的分类和组合，来更好地进行文本块填充和图像建议两项任务。

Apr, 2021

TRIE：端到端文本阅读和信息提取以实现文档理解

本文提出了一种统一的端到端文本阅读和信息提取网络，通过融合文本阅读的多模态视觉和文本特征来实现信息提取，并且信息提取中的语义有助于优化文本阅读，该方法在真实世界的数据集上表现出比现有方法更高的效率和准确性。

May, 2020