Aug, 2021

StrucTexT: 多模态Transformer的结构化文本理解

TL;DR本文提出一种名为StrucTexT的统一框架,该框架使用transformer构建了一个段-标记对齐的编码器来处理文档上下文中不同层面的实体标记和链接任务,并使用三个自监督任务设计了一种新颖的预训练策略,以有效地提取多模态信息,从而优于FUNSD,SROIE和EPHOIE数据集的现有方法。