基于 Transformer 的阿拉伯离线手写文本识别方法
本文介绍了针对阿拉伯历史文献的光学字符识别技术的研究,提出了一种端到端文本识别方法 BEIT,并通过实验比较证明,该方法优于卷积神经网络的特征提取方法,达到了 4.46% 的识别准确率。
Aug, 2022
使用变形金刚模型的多头自我注意力层,无需回归方法且具有超出预定义词汇表的单词识别能力,能实现很高的手写识别精度,即使在少量样本学习情况下也可取得满意的结果。
May, 2020
提出了一种从头开始训练的、端到端的、无分割的深度学习模型,利用 DCNN 进行特征提取,同时利用双向 LSTM 进行序列识别和 CTC 损失函数在 KHATT 数据库上进行训练,使得字符级别上测试数据集的识别率达到 84%,单词级别上达到 71%,建立了一种仅在行级别上操作而无需分割的基于图像的序列识别框架。同时介绍了 KFUPM Handwritten Arabic TexT (KHATT) 数据库的分析和预处理。最后,实现了包括滤波、变换和行分割等高级图像处理技术。该工作的重要性在于其广泛的应用,包括银行业的数字化、文档化、存档和文本翻译。此外,AHR 作为一种关键工具,可以使图像可搜索,增强信息检索能力,并实现轻松编辑。这一功能显著减少了阿拉伯语数据组织和处理等任务所需的时间和努力。
Jun, 2024
本文中,使用 Transformer 模型结构对在线手写手势符号转化为自然语言句子进行了研究,并展示了该模型的编码器解决多级分割、学习某些语言特征和语法规则等方面的优秀表现。此外,使用学习的 Byte-Pair-Encoding(BPE)和大型解码空间为数据输入和语法规则提供了鲁棒性。研究表明该模型具有迁移学习能力,适用于许多其他语言,并可用于泛用性的手写识别任务。最终,基于一个新的手写手势数据集训练小型 Transformer 模型,对于英语、德语句子平均归一化 Levenshtein 准确率达到 96%,对于法语则为 94%。
May, 2023
本研究主要解决将手写文本识别能力添加到大规模多语言 OCR 系统中的难点,包括数据获取,效率和集成等三个方面,通过使用在线手写数据集和基于神经网络的线识别模型等方式解决了这些问题,实现了 HTR 能力在 OCR 系统中的集成。
Apr, 2019
本文提出了几种用于阿拉伯文本自动标点的深度学习模型。模型既采用前馈神经网络也采用循环神经网络,包括诸如 100 热编码,嵌入式等多种增强技术。结果表明,与其他需要语言相关的后处理步骤的模型相比,我们的模型要么更好,要么与之相当。此外,我们还提出通过标点符号的使用,改善自然语言处理任务,如机器翻译。
Nov, 2019
本文提出一种将卷积神经网络和序列到序列模型相结合,将图像映射到文本序列,实现手写文本识别能力,且采用 Focal Loss 方法解决文本识别的类别不平衡问题,并应用 Beam Search 算法来提升模型的解码性能,在常见的 IAM 和 RIMES 数据集上实验表明,本文提出的模型在词级别的准确率方面分别提高了 3.5%和 1.1%,达到了国际先进水平。
Jul, 2018
本文介绍了一个 less computationally expensive 的全页手写文本识别框架,其中包括使用对象检测神经网络定位手写文本并使用多尺度 CNN 提取特征,然后将其输入到双向长短期记忆网络进行文本识别。该框架使用更少的内存和时间达到与现有框架相当的错误率,展示了该框架的潜力。
Oct, 2019
该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别,其中结合了卷积神经网络进行视觉信息的提取,实验结果表明其相比于最近的序列到序列方法取得了显著提升。
Mar, 2019