AAAIMar, 2023
HRDoc: 文档结构的分层重构的数据集和基准方法
HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of Document Structures
Jiefeng Ma, Jun Du, Pengfei Hu, Zhenrong Zhang, Jianshu Zhang...
TL;DR本文提出了一种新的任务:层次化重建多页文档的语义结构,并介绍了基于编码 - 解码结构的层次性文档结构分析系统 (DSPS) 来解决该问题。通过采用多模式双向编码器和结构感知 GRU 解码器,以及软屏蔽操作,DSPS 模型的表现优于基线方法。此外,作者还构建了一个大规模数据集 HRDoc,并公开发布。