May, 2024

XFormParser:一种简单而有效的多模式多语言半结构化表单解析器

TL;DR在文档 AI 领域中,半结构化表单解析起着至关重要的作用。本研究提出了一种简单而有效的多模态和多语言半结构化表单解析器(XFormParser),它基于全面的预训练语言模型,并创新地融合了语义实体识别(SER)和关系抽取(RE)技术。通过针对多语言表单解析需求开发了一个创新性的基准数据集,通过在多语言基准和新开发的数据集上进行严格测试,XFormParser 在语言特定设置中的 RE 任务中取得了卓越的效果,F1 得分提高了高达 1.79%。与现有的 SOTA 基准相比,我们的框架在多语言和零样本环境中的性能显著提高。