Dec, 2022

Wukong-Reader:用于细粒度视觉文档理解的多模态预训练

TL;DR本文提出的 Wukong-Reader 通过各种新的预训练目标进行训练,以利用文档文本线中嵌套的结构知识。本文还介绍了文本线 - 区域对比学习、遮罩区域建模和文本线网格匹配等方法,以增强文本线的视觉和布局表示。实验结果表明,我们的 Wukong-Reader 在各种视觉文档理解任务中具有卓越的性能,具有有前途的定位能力。