KDDJun, 2022

DocLayNet: 一个用于文档布局分析的大型人工注释数据集

TL;DR本文提出了一个新的文档布局注释数据集 DocLayNet,用于针对多样性布局的训练和测试,证明在丰富的文档数据场景下,DocLayNet 训练的模型比 PubLayNet 和 DocBank 训练的模型更具鲁棒性,是进行通用文档布局分析的首选。