基于 Transformer 的阿拉伯离线手写文本识别方法

Jul, 2023

基于 Transformer 的阿拉伯离线手写文本识别方法

A Transformer-based Approach for Arabic Offline Handwritten Text Recognition

Saleh Momeni, Bagher BabaAli

TL;DR手写识别是模式识别和机器学习领域中具有挑战性和关键问题，其应用领域广泛。本文专注于离线阿拉伯手写文本识别问题，并引入两种替代架构，即 Transformer Transducer 和标准序列到序列 Transformer，并比较它们在准确性和速度方面的性能表现，结果显示我们的方法在识别离线阿拉伯手写文本方面优于当前最先进的方法。

Abstract

handwriting recognition is a challenging and critical problem in the fields of pattern recognition and machine learning, with applications spanning a wide range of domains. In this paper, we focus on the specific issue of recognizing offline →

handwriting recognition arabic handwritten text convolutional neural networks recurrent neural networks transformer transducer

发现论文，激发创造

一种基于 Transformer 模型的端到端 OCR 框架，用于识别具有变音符的大规模古典阿拉伯文多字体语料库的手写体 Arabic 识别

本文介绍了针对阿拉伯历史文献的光学字符识别技术的研究，提出了一种端到端文本识别方法 BEIT，并通过实验比较证明，该方法优于卷积神经网络的特征提取方法，达到了 4.46% 的识别准确率。

Aug, 2022

注意力聚焦：非递归手写文本行识别

使用变形金刚模型的多头自我注意力层，无需回归方法且具有超出预定义词汇表的单词识别能力，能实现很高的手写识别精度，即使在少量样本学习情况下也可取得满意的结果。

May, 2020

一种无分割的端到端阿拉伯手写识别模型在 KHATT 上的应用

提出了一种从头开始训练的、端到端的、无分割的深度学习模型，利用 DCNN 进行特征提取，同时利用双向 LSTM 进行序列识别和 CTC 损失函数在 KHATT 数据库上进行训练，使得字符级别上测试数据集的识别率达到 84%，单词级别上达到 71%，建立了一种仅在行级别上操作而无需分割的基于图像的序列识别框架。同时介绍了 KFUPM Handwritten Arabic TexT (KHATT) 数据库的分析和预处理。最后，实现了包括滤波、变换和行分割等高级图像处理技术。该工作的重要性在于其广泛的应用，包括银行业的数字化、文档化、存档和文本翻译。此外，AHR 作为一种关键工具，可以使图像可搜索，增强信息检索能力，并实现轻松编辑。这一功能显著减少了阿拉伯语数据组织和处理等任务所需的时间和努力。

Jun, 2024

使用 Transformer 和自然语言处理进行在线手势识别

本文中，使用 Transformer 模型结构对在线手写手势符号转化为自然语言句子进行了研究，并展示了该模型的编码器解决多级分割、学习某些语言特征和语法规则等方面的优秀表现。此外，使用学习的 Byte-Pair-Encoding（BPE）和大型解码空间为数据输入和语法规则提供了鲁棒性。研究表明该模型具有迁移学习能力，适用于许多其他语言，并可用于泛用性的手写识别任务。最终，基于一个新的手写手势数据集训练小型 Transformer 模型，对于英语、德语句子平均归一化 Levenshtein 准确率达到 96％，对于法语则为 94％。

May, 2023

一个可扩展的手写文本识别系统

本研究主要解决将手写文本识别能力添加到大规模多语言 OCR 系统中的难点，包括数据获取，效率和集成等三个方面，通过使用在线手写数据集和基于神经网络的线识别模型等方式解决了这些问题，实现了 HTR 能力在 OCR 系统中的集成。

Apr, 2019

神经网络阿拉伯文加点：最新进展和机器翻译的新方法

本文提出了几种用于阿拉伯文本自动标点的深度学习模型。模型既采用前馈神经网络也采用循环神经网络，包括诸如 100 热编码，嵌入式等多种增强技术。结果表明，与其他需要语言相关的后处理步骤的模型相比，我们的模型要么更好，要么与之相当。此外，我们还提出通过标点符号的使用，改善自然语言处理任务，如机器翻译。

Nov, 2019

一种高效的端到端神经模型用于手写文本识别

本文提出一种将卷积神经网络和序列到序列模型相结合，将图像映射到文本序列，实现手写文本识别能力，且采用 Focal Loss 方法解决文本识别的类别不平衡问题，并应用 Beam Search 算法来提升模型的解码性能，在常见的 IAM 和 RIMES 数据集上实验表明，本文提出的模型在词级别的准确率方面分别提高了 3.5％和 1.1％，达到了国际先进水平。

Jul, 2018

基于 Transformer 的乌尔都文手写文字光学字符识别器

本文介绍了使用 Transformer 来识别复杂的乌尔都手写文本的方法。

Jun, 2022

一种计算高效的全页离线手写文本识别流水线方法

本文介绍了一个 less computationally expensive 的全页手写文本识别框架，其中包括使用对象检测神经网络定位手写文本并使用多尺度 CNN 提取特征，然后将其输入到双向长短期记忆网络进行文本识别。该框架使用更少的内存和时间达到与现有框架相当的错误率，展示了该框架的潜力。

Oct, 2019

评估序列到序列模型在手写文本识别中的应用

该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别，其中结合了卷积神经网络进行视觉信息的提取，实验结果表明其相比于最近的序列到序列方法取得了显著提升。

Mar, 2019