Apr, 2024

手写文件的端到端信息提取:理解 1880 年至 1940 年的巴黎结婚记录

TL;DREXO-POPP 项目旨在建立一个包含法国巴黎及其郊区 1880 年至 1940 年之间的 30 万份婚姻记录的综合数据库,其中包括超过 13 万多个扫描的双页图像。该论文介绍了 M-POPP 数据集,这是 M-POPP 数据库的一个子集,用于手写和印刷文件的全页文本识别和信息提取,并已公开提供。通过从页面图像直接进行手写文本识别和信息提取,我们提出了一种完整的端到端架构,该架构是从 DAN 进行了适应。我们通过在 Esposalles 上实现全页信息提取的最新技术水平来展示该架构的信息提取能力,并将该架构作为 M-POPP 数据集的基准。我们还评估并比较了不同的命名实体编码策略对识别手写文本和提取信息的全页性能的影响。