Feb, 2022

处理文档结构:对法语历史报纸进行逻辑版面分析

TL;DR本文探讨了应用于法国历史文件的逻辑版面分析问题,并提出了一种基于规则的方法,并对两种机器学习模型 RIPPER 和 Gradient Boosting 进行了评估和比较。通过实验表明,我们的规则系统表现优于两种机器学习模型,提高了召回率,并证实了我们的系统可以生成足够大的注释数据集,以便于机器学习或深度学习方法进行逻辑版面分析任务。