Jul, 2022
知其所在,知其所含:面向文档理解的统一词块预训练
Knowing Where and What: Unified Word Block Pretraining for Document Understanding
Song Tao, Zijian Wang, Tiantian Fan, Canjie Luo, Can Huang
TL;DR本文提出了一种名为 UTel 的基于文本和布局的统一预训练语言模型,它通过两个预训练任务,使用裁剪的相对位置嵌入来处理文档布局的关系,能够无需图像模态高效处理任意长度序列,且在多个下游任务上取得了优越表现。