ACLMay, 2023
LayoutMask:以多模态预训练增强文档理解中的文本布局交互
LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training for Document Understanding
Yi Tu, Ya Guo, Huan Chen, Jinyang Tang
TL;DR本论文旨在改进文本布局交互,提出了一种新的多模态预训练模型 LayoutMask,该模型使用本地 1D 位置作为布局输入,并具有两个预训练目标:掩码语言建模和掩码位置建模,LayoutMask 可以增强文本和布局模态之间的交互,并为下游任务生成自适应和鲁棒的多模态表示。