阿拉伯手写文本行数据集
我们提供了一个由历史手写页面图像组成的机器学习数据集,每个文档图像配有文字行的空间多边形坐标以及基本页面元素,可用于提升手写文本识别的技术水平。该数据集包含不同的手写风格和各种文档类型,并介绍了数据获取过程、数据集特征和统计信息,同时提供了使用此数据进行训练的卷积神经网络的初步基线结果。
Jun, 2024
提出了一种从头开始训练的、端到端的、无分割的深度学习模型,利用 DCNN 进行特征提取,同时利用双向 LSTM 进行序列识别和 CTC 损失函数在 KHATT 数据库上进行训练,使得字符级别上测试数据集的识别率达到 84%,单词级别上达到 71%,建立了一种仅在行级别上操作而无需分割的基于图像的序列识别框架。同时介绍了 KFUPM Handwritten Arabic TexT (KHATT) 数据库的分析和预处理。最后,实现了包括滤波、变换和行分割等高级图像处理技术。该工作的重要性在于其广泛的应用,包括银行业的数字化、文档化、存档和文本翻译。此外,AHR 作为一种关键工具,可以使图像可搜索,增强信息检索能力,并实现轻松编辑。这一功能显著减少了阿拉伯语数据组织和处理等任务所需的时间和努力。
Jun, 2024
我们提供了一个用于评估分离阿拉伯词汇方法的基准数据集,其中包括来自《伊斯兰教法》书籍的约 223,690 个单词,并由专家进行了标注。通过使用 Farasa、Camel、Madamira 和 ALP 等不同方法对数据集进行评估,我们报告了四种评估方法的注释质量。
Jun, 2023
该文章介绍了一个新的离线手写文本识别数据集,集中在孟加拉文字的图像上,该数据集包括 788 张手写页面图像和一个用于无监督聚类线分割的方案。该数据集可以用于各种手写文档识别、词识别、词或行分割等任务。
May, 2022
Khayyam dataset is an extensive collection of handwriting samples in the Persian language, specifically focused on rare Persian word samples, consisting of 44,000 words, 60,000 letters, and 6,000 digits, provided by 400 native Persian writers, serving as a valuable resource for machine learning algorithms.
Jun, 2024
本文提出了一种针对离线手写段落文本识别的神经网络模型,利用注意力权重计算图像表示,实现了一种隐式行分割的可训练端到端模型,试验结果表明其性能与传统基于线段的模型竞争力相当,具有将全文档转录实现的潜力。
Apr, 2016
本研究通过对现有系统、度量和资源的批判性回顾,提供了一个可以用于基准测试阿拉伯文连字的免费清洗数据集。实验结果表明,神经 Shakkala 系统相对于传统的基于规则的方法和其他闭源工具具有更好的连字错误率表现。
Apr, 2019
本研究探讨用数据驱动的子字单元、字符和卷积神经网络(CNN)学习的单词嵌入来替代传统的形态学分割,实现阿拉伯语自然语言处理(NLP)中的词分割。实验表明,这些方法在机器翻译和词性标注任务中,可以达到接近或超过最先进性能。同时,研究揭示神经机器翻译系统对源和目标令牌的比值敏感,接近 1 或更大的比值有最佳性能。
Sep, 2017
本研究基于卷积神经网络(CNN)提出了一种针对儿童阿拉伯手写字符识别的模型,其精度在 Hijja 数据集上为 91%,在阿拉伯手写字符数据集上为 97%,并提出了一种基于笔画数的多模型方法,融合 Hijja 和 AHCD,平均预测准确率达到 96%。
Nov, 2022