Dec, 2023

REE-HDSC:历史数据库苏里南库拉索的实体识别

TL;DR我们介绍了 REE-HDSC 项目,并概述了我们努力提高手写文本识别软件生成的文本中自动提取命名实体的质量的工作。我们描述了一个六步处理流程,并通过处理库拉索民事登记处的 19 世纪和 20 世纪的死亡证明进行了测试。我们发现该流程能够高精度地提取日期,但人名提取的精度较低。接下来,我们展示了如何通过重新训练带有人名的 HTR 模型、后处理以及识别并删除错误名字来提高人名的提取精度。