AAAIMar, 2023

HRDoc: 文档结构的分层重构的数据集和基准方法

TL;DR本文提出了一种新的任务:层次化重建多页文档的语义结构,并介绍了基于编码 - 解码结构的层次性文档结构分析系统 (DSPS) 来解决该问题。通过采用多模式双向编码器和结构感知 GRU 解码器,以及软屏蔽操作,DSPS 模型的表现优于基线方法。此外,作者还构建了一个大规模数据集 HRDoc,并公开发布。