阿拉伯手写文本行数据集

Dec, 2023

Arabic Handwritten Text Line Dataset

Hakim Bouchal, Ahror Belaid

TL;DR将阿拉伯手稿分割成文本行和单词是使识别系统更高效准确的重要步骤。我们提出了一个新的数据集，专门设计用于历史阿拉伯脚本，并在单词层面进行位置标注。

Abstract

segmentation of arabic manuscripts into lines of text and words is an important step to make recognition systems more efficient and accura

segmentation arabic manuscripts recognition systems word position historical arabic script

发现论文，激发创造

Muharaf：手写阿拉伯文连续文本识别的手稿数据集

我们提供了一个由历史手写页面图像组成的机器学习数据集，每个文档图像配有文字行的空间多边形坐标以及基本页面元素，可用于提升手写文本识别的技术水平。该数据集包含不同的手写风格和各种文档类型，并介绍了数据获取过程、数据集特征和统计信息，同时提供了使用此数据进行训练的卷积神经网络的初步基线结果。

Jun, 2024

历史文献的文本行分割：一份调查报告

本文调研了历史文献数字化领域的文献分割、文本行分割、文字检索、鉴定和提取等方面所采用的各种方法，讨论了低质量和复杂性文献自动文本行分割的挑战。

Apr, 2007

一种无分割的端到端阿拉伯手写识别模型在 KHATT 上的应用

提出了一种从头开始训练的、端到端的、无分割的深度学习模型，利用 DCNN 进行特征提取，同时利用双向 LSTM 进行序列识别和 CTC 损失函数在 KHATT 数据库上进行训练，使得字符级别上测试数据集的识别率达到 84%，单词级别上达到 71%，建立了一种仅在行级别上操作而无需分割的基于图像的序列识别框架。同时介绍了 KFUPM Handwritten Arabic TexT (KHATT) 数据库的分析和预处理。最后，实现了包括滤波、变换和行分割等高级图像处理技术。该工作的重要性在于其广泛的应用，包括银行业的数字化、文档化、存档和文本翻译。此外，AHR 作为一种关键工具，可以使图像可搜索，增强信息检索能力，并实现轻松编辑。这一功能显著减少了阿拉伯语数据组织和处理等任务所需的时间和努力。

Jun, 2024

Noor-Ghateh：用于评估哈迪斯领域阿拉伯语词分割器的基准数据集

我们提供了一个用于评估分离阿拉伯词汇方法的基准数据集，其中包括来自《伊斯兰教法》书籍的约 223,690 个单词，并由专家进行了标注。通过使用 Farasa、Camel、Madamira 和 ALP 等不同方法对数据集进行评估，我们报告了四种评估方法的注释质量。

Jun, 2023

BN-HTRd: 一份用于离线孟加拉文手写文本识别（HTR）和行分割的基准数据集

该文章介绍了一个新的离线手写文本识别数据集，集中在孟加拉文字的图像上，该数据集包括 788 张手写页面图像和一个用于无监督聚类线分割的方案。该数据集可以用于各种手写文档识别、词识别、词或行分割等任务。

May, 2022

哈亚姆离线波斯手写数据集

Khayyam dataset is an extensive collection of handwriting samples in the Persian language, specifically focused on rare Persian word samples, consisting of 44,000 words, 60,000 letters, and 6,000 digits, provided by 400 native Persian writers, serving as a valuable resource for machine learning algorithms.

Jun, 2024

端到端手写段落识别的联合分割和转录

本文提出了一种针对离线手写段落文本识别的神经网络模型，利用注意力权重计算图像表示，实现了一种隐式行分割的可训练端到端模型，试验结果表明其性能与传统基于线段的模型竞争力相当，具有将全文档转录实现的潜力。

Apr, 2016

使用深度神经网络进行阿拉伯文标点符号标注

本研究通过对现有系统、度量和资源的批判性回顾，提供了一个可以用于基准测试阿拉伯文连字的免费清洗数据集。实验结果表明，神经 Shakkala 系统相对于传统的基于规则的方法和其他闭源工具具有更好的连字错误率表现。

Apr, 2019

阿拉伯语言相关分词的挑战：机器翻译和词性标注的应用

本研究探讨用数据驱动的子字单元、字符和卷积神经网络（CNN）学习的单词嵌入来替代传统的形态学分割，实现阿拉伯语自然语言处理（NLP）中的词分割。实验表明，这些方法在机器翻译和词性标注任务中，可以达到接近或超过最先进性能。同时，研究揭示神经机器翻译系统对源和目标令牌的比值敏感，接近 1 或更大的比值有最佳性能。

Sep, 2017

使用卷积神经网络和笔画识别技术实现儿童手写阿拉伯字符识别

本研究基于卷积神经网络（CNN）提出了一种针对儿童阿拉伯手写字符识别的模型，其精度在 Hijja 数据集上为 91%，在阿拉伯手写字符数据集上为 97%，并提出了一种基于笔画数的多模型方法，融合 Hijja 和 AHCD，平均预测准确率达到 96%。

Nov, 2022