基于图注意力网络的多模态预训练在文档理解中的应用

Mar, 2022

基于图注意力网络的多模态预训练在文档理解中的应用

Multimodal Pre-training Based on Graph Attention Network for Document Understanding

Zhenrong Zhang, Jiefeng Ma, Jun Du, Licheng Wang, Jianshu Zhang

TL;DR本文提出了一种基于多模态图注意力机制的图文结合的自动文档分析模型 (GraphDoc)，该模型利用文本、布局和图像信息进行多模态预训练，并通过门控融合层对每个节点进行多模态特征融合，通过图注意层建模每个节点之间的上下文关系，学习了仅使用 320k 未标注文档的通用表示，在公共数据集上获得了最先进的性能。

Abstract

document intelligence as a relatively new research topic supports many business applications. Its main task is to automatically read, understand, and analyze documents. However, due to the diversity of formats (invoices, reports, forms, etc.) and layouts in documents, it is difficult t

document intelligence graphdoc multimodal graph attention-based model document understanding tasks masked sentence modeling task

发现论文，激发创造

图注意力网络实现的对比文档表征学习

本文提出使用图注意力网络在可用的预训练 Transformer 模型之上来学习文档嵌入，并基于该模型设计简单的对比学习策略，在大量无标签语料库上预训练模型。经验证明，我们的方法在文档分类和文档检索任务中是有效的。

Oct, 2021

多模态问答的多模态图形转换器

本文提出一种多模态图变换器，它利用了文本和视觉数据的多模态信息，并通过结构化学习和图神经网络的方法对自注意力进行约束以提高推理能力，适用于需要跨多个模态执行推理的问题回答任务。我们通过在 GQA，VQAv2 和 MultiModalQA 数据集上进行实验来验证这种方法的有效性，表明多模态图变换器优于 Transformer 模型基线。

Apr, 2023

基于图注意力网络的文档建模用于多粒度机器阅读理解

本文提出了一种新的多粒度机器阅读理解框架，利用图注意力网络对文档的不同层次进行建模，以同时学习各个级别的表示，从而提取长答案和短答案并建模其之间的依赖关系，并通过联合训练来显著提高对两种类型答案的准确性。

May, 2020

SelfDoc: 自我监督文件表示学习

SelfDoc 是一个文档图像理解的任务无关的预训练框架，利用文档的位置、文本和视觉信息，并建模内容块之间的上下文关系，提出了一种新的跨模态学习模型，优于现有模型，同时具有自适应的视觉语言融合机制并应用自监督模型预训练，与以前作品相比，使用较少的文档图片达到更好的性能。

Jun, 2021

Doc2Graph: 一种基于图神经网络的任务无关文档理解框架

这篇研究文章介绍了一种基于 GNN 模型的文档理解框架 ——Doc2Graph，可用于处理不同类型文档的不同任务，如发票布局分析及表格识别等，旨在提高信息提取的效率。

Aug, 2022

基于统一模态屏蔽的序列到序列预训练用于视觉文档理解

本文提出 GenDoc，这是一个使用序列到序列模型进行预训练的通用文档理解模型，该模型采用编码器 - 解码器架构，可适应多种输出格式的下游任务，通过包括掩码图像令牌预测和掩码布局预测在内的多个任务进行预训练，采用分离的注意力和模态专家策略来有效地捕获每种模态利用的信息，实验结果显示，与最先进的方法相比，该模型具有更强的鲁棒性。

May, 2023

基于知识图谱和改进注意力机制的文本分类

为了解决文本中的语义模糊问题，我们提出了一个模型，创新地将知识图谱与改进的注意机制结合起来。该模型在字符和词级别上运作，通过集成概念来加深对文本的理解。我们首先采用信息增益选择重要词，然后采用编码器 - 解码器框架对文本及相关概念进行编码。本地注意机制调整每个概念的权重，在分类过程中减少不相关或噪声概念的影响。我们改进了本地自注意机制中注意分数的计算公式，确保文本中不同频率出现的词语获得更高的注意分数。最后，该模型采用了双向门控循环单元（Bi-GRU），从文本中提取特征以提高分类准确性。该模型在 AGNews、Ohsumed 和 TagMyNews 等数据集上达到了 75.1%、58.7% 和 68.5% 的准确率，展示了其在分类任务中的有效性。

Jan, 2024

多模态图神经网络用于视觉场景联合推理

利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Mar, 2020

DocGraphLM: 信息提取的文档图谱语言模型

该研究论文介绍了一种名为 DocGraphLM 的新型框架，它结合了预训练语言模型和图形语义，通过使用联合编码器架构来表示文档，并采用一种新颖的链接预测方法来重构文档图。DocGraphLM 通过采用图形特征，在信息提取和问答任务中持续改善了目标性能，并且提供了在训练过程中加速收敛的优点。

Jan, 2024

MGDoc: 多粒度分层预训练用于文档图像理解

我们提出了一个名为 MGDoc 的新的多模态、多粒度预训练框架，通过使用统一的文本 - 视觉编码器来获得不同粒度的多模态特征，以便把多个粒度的特征投影到相同的超空间中，并设计了跨粒度的注意机制和特定的预训练任务来建模区域和单词之间的关系，并展示该模型能够学习到更好的特征，在下游任务中表现出色。

Nov, 2022