本文提出了一种针对离线手写段落文本识别的神经网络模型,利用注意力权重计算图像表示,实现了一种隐式行分割的可训练端到端模型,试验结果表明其性能与传统基于线段的模型竞争力相当,具有将全文档转录实现的潜力。
Apr, 2016
本文提出一种将卷积神经网络和序列到序列模型相结合,将图像映射到文本序列,实现手写文本识别能力,且采用 Focal Loss 方法解决文本识别的类别不平衡问题,并应用 Beam Search 算法来提升模型的解码性能,在常见的 IAM 和 RIMES 数据集上实验表明,本文提出的模型在词级别的准确率方面分别提高了 3.5%和 1.1%,达到了国际先进水平。
Jul, 2018
本文介绍了一种支持 102 种语言的在线手写系统,采用深度神经网络架构和贝塞尔曲线的新输入编码,与之前的系统相比降低了 20%-40% 的错误率,并在 IAM-OnDB 数据集上取得了新的最优结果。通过实验确定了模型的最优配置,并在多个公共数据集上进行了评估。
Feb, 2019
使用变形金刚模型的多头自我注意力层,无需回归方法且具有超出预定义词汇表的单词识别能力,能实现很高的手写识别精度,即使在少量样本学习情况下也可取得满意的结果。
May, 2020
手写文本识别中的问题一直是研究人员面临的挑战,本研究提出了一种融合内部线段切分和门控卷积层编码器的端到端段落识别系统,使用基于连接主义时间分类的词束搜索解码器作为后处理步骤,取得了较高的识别准确率。
Apr, 2024
提出了一种基于注意力的编码器解码器模型 (AED),用于识别越南手写文本,该模型通过使用 DenseNet 提取不变特征和将带有注意力模型的 LSTM 解码器连接在一起的方法生成输出文本,实验结果表明,在 VNOnDB-Word 和 VNOnDB-Line 数据集上达到了竞争性结果。
May, 2019
本篇论文提出了一种基于 Transformer 的方法,用于从数字化手写文件中提取信息,将特征提取、手写识别和命名实体识别的步骤结合成了一个模型,并且在不同分辨率下比较了传统的两阶段方法,实验证明全页注意力模型能够从键值注释中进行学习,并且在多个数据集上胜过现有的方法。
Apr, 2023
本文介绍了一个 less computationally expensive 的全页手写文本识别框架,其中包括使用对象检测神经网络定位手写文本并使用多尺度 CNN 提取特征,然后将其输入到双向长短期记忆网络进行文本识别。该框架使用更少的内存和时间达到与现有框架相当的错误率,展示了该框架的潜力。
Oct, 2019
本文提出了一种基于注意力驱动的卷积神经网络的作者识别系统,该系统利用从词图像中提取的图像片段进行训练,采用金字塔策略。该系统能够全面捕捉数据的细节和粗糙特征,以及不同抽象层次上的信息。此外,文中探讨了使用注意力机制来增强学习特征的表征能力。该算法在三个基准数据库上进行了评估,证明了其在作者识别任务中的有效性,尤其是在有限手写数据的情景中。
该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别,其中结合了卷积神经网络进行视觉信息的提取,实验结果表明其相比于最近的序列到序列方法取得了显著提升。
Mar, 2019