May, 2023

基于统一模态屏蔽的序列到序列预训练用于视觉文档理解

TL;DR本文提出 GenDoc,这是一个使用序列到序列模型进行预训练的通用文档理解模型,该模型采用编码器 - 解码器架构,可适应多种输出格式的下游任务,通过包括掩码图像令牌预测和掩码布局预测在内的多个任务进行预训练,采用分离的注意力和模态专家策略来有效地捕获每种模态利用的信息,实验结果显示,与最先进的方法相比,该模型具有更强的鲁棒性。