Jun, 2024

一种无分割的端到端阿拉伯手写识别模型在 KHATT 上的应用

TL;DR提出了一种从头开始训练的、端到端的、无分割的深度学习模型,利用 DCNN 进行特征提取,同时利用双向 LSTM 进行序列识别和 CTC 损失函数在 KHATT 数据库上进行训练,使得字符级别上测试数据集的识别率达到 84%,单词级别上达到 71%,建立了一种仅在行级别上操作而无需分割的基于图像的序列识别框架。同时介绍了 KFUPM Handwritten Arabic TexT (KHATT) 数据库的分析和预处理。最后,实现了包括滤波、变换和行分割等高级图像处理技术。该工作的重要性在于其广泛的应用,包括银行业的数字化、文档化、存档和文本翻译。此外,AHR 作为一种关键工具,可以使图像可搜索,增强信息检索能力,并实现轻松编辑。这一功能显著减少了阿拉伯语数据组织和处理等任务所需的时间和努力。