May, 2023

结合 OCR 模型阅读早期印刷书籍

TL;DR该论文研究了使用精细字体识别技术对 15 至 18 世纪印刷书籍进行 OCR 的方法。作者们使用了一个新的数据集,其中包含了早期印刷书籍的 OCR 信息,并标记了每个字体的边界框。研究结果表明,字体风格对 OCR 性能有很大影响,所选模型的精细程度对结果也有积极影响。此外,作者们开发了一个本地字体组识别系统,可以在识别多种字体的文本行时取得更好的识别效果。