Oct, 2023

通过多任务预训练提升文档信息分析:一种在视觉丰富的文档中提取信息的鲁棒方法

TL;DR该研究介绍了一种深度学习模型,针对文档信息分析进行了定制,强调文档分类、实体关系提取和文档视觉问答。该模型利用基于变换器的模型来编码文档图像中的所有信息,包括文本、视觉和布局信息。该模型在预训练阶段加入了三个附加任务,并通过集体预训练方案考虑了所有任务的损失。通过在不同数据集上进行预训练和微调任务,该模型在所有任务上取得了令人印象深刻的结果,对于文档分类的准确率达到了 95.87%,实体关系提取的 F1 得分分别为 0.9306、0.9804、0.9794 和 0.8742,文档视觉问答的 ANLS 得分为 0.8468,结果凸显了该模型在理解和解释复杂文档布局和内容方面的有效性,使其成为文档分析任务的有希望的工具。