COLINGJun, 2020

DocBank: 一个文档布局分析基准数据集

TL;DR本文介绍了 DocBank,一个包含 500K 篇文档页面的基准数据集,其中包含细粒度的令牌级别的注释,用于文档布局分析的多模态方法的性能提高研究。实验结果表明,使用 DocBank 训练出的模型可以准确识别各种不同类型的文档的布局信息。