May, 2023

M$^{6}$Doc:现代文档布局分析的大规模多格式、多类型、多布局、多语言、多注释类别数据集

TL;DR本文介绍了一种名为 $M^{6} Doc$ 的大型多样化文档布局分析数据集和一种基于 transformer 的文档布局分析方法 TransDLANet。该方法采用自适应元素匹配机制和构建分割分支,以更好地匹配真实情况,并且实现更精确的文档图像实例分割,其中 $M^{6} Doc$ 数据集展示了其有效性,并且 TransDLANet 在该数据集上达到了 64.5%的 mAP,该数据集具有多种注释类别的特点。