Mar, 2022

基于图注意力网络的多模态预训练在文档理解中的应用

TL;DR本文提出了一种基于多模态图注意力机制的图文结合的自动文档分析模型 (GraphDoc),该模型利用文本、布局和图像信息进行多模态预训练,并通过门控融合层对每个节点进行多模态特征融合,通过图注意层建模每个节点之间的上下文关系,学习了仅使用 320k 未标注文档的通用表示, 在公共数据集上获得了最先进的性能。