Apr, 2023

从手写魁北克教区记录中提取大规模家谱信息

TL;DR本文介绍了一种用于从魁北克手写教区登记簿中提取信息的完整工作流程,该工作流程通过将文档图像转换为个人化的信息,使其适用于遗传、人口统计和社会研究。工作流程采用逐步方法,并采用不同的机器学习模型,同时由专家设计的验证规则用于标准化提取的信息并确保其一致性。该方法已被用于魁北克教区登记簿中超过 200 万个页面的处理,并将被整合到 BALSAC 数据库中进行家族和系谱关系的重建。