ACLMay, 2023

LayoutMask:以多模态预训练增强文档理解中的文本布局交互

TL;DR本论文旨在改进文本布局交互,提出了一种新的多模态预训练模型 LayoutMask,该模型使用本地 1D 位置作为布局输入,并具有两个预训练目标:掩码语言建模和掩码位置建模,LayoutMask 可以增强文本和布局模态之间的交互,并为下游任务生成自适应和鲁棒的多模态表示。