AAAIAug, 2021

BROS: 一个针对文本和排版的预训练语言模型,用于更好地从文档中提取关键信息

TL;DR提出一种名为 BROS(BERT Relying On Spatiality)的预训练语言模型,重点在于将文字和布局有效组合起来,通过对文档中文字的相对位置进行编码以学习二维空间中的文本语义和布局,并利用面积屏蔽策略从未标记文档进行优化训练。BROS 表现出与其他方法相当甚至更好的性能,解决了两个实际的关键信息提取问题:减少文本顺序错误和使用较少的下游示例进行高效学习。