Nov, 2022

MGDoc: 多粒度分层预训练用于文档图像理解

TL;DR我们提出了一个名为MGDoc的新的多模态、多粒度预训练框架,通过使用统一的文本-视觉编码器来获得不同粒度的多模态特征,以便把多个粒度的特征投影到相同的超空间中,并设计了跨粒度的注意机制和特定的预训练任务来建模区域和单词之间的关系,并展示该模型能够学习到更好的特征,在下游任务中表现出色。