May, 2023
M$^{6}$Doc:现代文档布局分析的大规模多格式、多类型、多布局、多语言、多注释类别数据集
M$^{6}$Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis
Hiuyi Cheng, Peirong Zhang, Sihang Wu, Jiaxin Zhang, Qiyuan Zhu...
TL;DR本文介绍了一种名为 $M^{6} Doc$ 的大型多样化文档布局分析数据集和一种基于 transformer 的文档布局分析方法 TransDLANet。该方法采用自适应元素匹配机制和构建分割分支,以更好地匹配真实情况,并且实现更精确的文档图像实例分割,其中 $M^{6} Doc$ 数据集展示了其有效性,并且 TransDLANet 在该数据集上达到了 64.5%的 mAP,该数据集具有多种注释类别的特点。