Feb, 2024

使用多模态 Transformers 的科学图表中的文本角色分类

TL;DR文本角色分类涉及对科学图表中的文本元素进行语义角色分类。我们提出在图表数据集上对两个预训练的多模态文档布局分析模型 LayoutLMv3 和 UDOP 进行微调,并利用文本、图像和布局这三种模态作为输入。我们进一步研究了数据增强和平衡方法是否对模型的性能有帮助。模型在各种图表数据集上进行评估,结果表明 LayoutLMv3 在所有实验中表现优于 UDOP。LayoutLMv3 在 ICPR22 测试数据集上获得了 82.87 的最高 F1 宏分数,在 ICPR22 CHART-Infographics 挑战中超过了最佳模型。此外,模型的鲁棒性在合成噪声数据集 ICPR22-N 上进行了测试。最后,我们评估了模型在三个带有文本角色标签的图表数据集 CHIME-R、DeGruyter 和 EconBiz 上的泛化能力。研究结果表明,即使在训练数据有限的情况下,通过数据增强和平衡方法可以使用 transformers。源代码和数据集可在 GitHub 上的此网址找到。