Aug, 2024

古老但数字化:通过创建KHAMIS数据集开发东叙利亚文字的手写光学字符识别

TL;DR本研究解决了叙利亚语作为一种古老且濒危语言在数字化过程中的不足。通过创建KHAMIS数据集,研究者对手写叙利亚文本进行了光学字符识别模型的开发,实现了相较于Tesseract默认模型的显著性能提升,开辟了更多数字服务的可能性。该模型的字符错误率达到了1.097-1.610%,为叙利亚文的数字化提供了重要工具。