Apr, 2024

利用可用的光学字符识别引擎增强处理旧的库尔德出版物

TL;DR该研究致力于处理库尔德历史出版物,采用 Google 的免费 OCR 框架 Tesseract 5.0,使用自行创建的历史文档数据集进行训练,开发了一个提取文本的网页应用,同时也面临了公共数据集缺乏和字符、词之间不对齐的挑战。