ICLRMar, 2023

StrucTexTv2: 遮蔽式视觉文本预测用于文档图像预训练

TL;DR本文提出了一种名为 StrucTexTv2 的有效的文档图像预训练框架,通过执行掩码视觉 - 文本预测。它由两个自我监督的预训练任务组成:掩码图像建模和掩码语言建模,基于文本区域级别的图像掩码。经实验验证,该模型在文档图像理解的各个下游任务中均取得了具有竞争力甚至是最新的最佳性能。