Apr, 2024

手写文件中信息提取的读取顺序无关度量

TL;DR手写文件中的信息提取过程往往依赖于获得自动转录并对该转录执行命名实体识别(NER);出于这个原因,在公开可用的数据集中,系统的性能通常使用适用于每个数据集的特定指标进行评估。而且,大多数使用的指标对阅读顺序错误非常敏感,因此不能反映系统的预期最终应用,并且在更复杂的文件中引入了偏见。在本文中,我们提出并公开发布了一套针对手写文件中信息提取评估的与阅读顺序无关的度量标准。在实验中,我们对度量标准的行为进行了深入分析,并推荐了我们认为的正确评估任务所需的最小度量标准。