手写文本识别系统的最佳实践
本研究主要解决将手写文本识别能力添加到大规模多语言 OCR 系统中的难点,包括数据获取,效率和集成等三个方面,通过使用在线手写数据集和基于神经网络的线识别模型等方式解决了这些问题,实现了 HTR 能力在 OCR 系统中的集成。
Apr, 2019
本文研究基于深度学习的方法在离线手写中文文本识别领域的应用,使用只有卷积神经网络的模型和 CTC 损失函数实现,采用 Dropout 方法以防止过拟合,最终在 ICDAR 2013 竞赛数据集上实现了 6.81% 的字符错误率,为同等条件下最好的研究结果。
Jun, 2020
本文提出一种将卷积神经网络和序列到序列模型相结合,将图像映射到文本序列,实现手写文本识别能力,且采用 Focal Loss 方法解决文本识别的类别不平衡问题,并应用 Beam Search 算法来提升模型的解码性能,在常见的 IAM 和 RIMES 数据集上实验表明,本文提出的模型在词级别的准确率方面分别提高了 3.5%和 1.1%,达到了国际先进水平。
Jul, 2018
使用变形金刚模型的多头自我注意力层,无需回归方法且具有超出预定义词汇表的单词识别能力,能实现很高的手写识别精度,即使在少量样本学习情况下也可取得满意的结果。
May, 2020
通过对大型基准数据集和通过手写文本生成模型产生的合成数据集的研究,本文提出在大数据集上预训练手写文本识别模型,并在少量带有个人特点手写的小规模数据集上进行微调,以有效转录手稿。
May, 2023
本文介绍了一种解读大量手写历史词典索引卡的方法,使用一种特别设计的手写文本识别解决方案,包括优化的检测模型,SPN、RCNN 和 CTC 三种卷积神经网络结构,以及基于约束的单词匹配算法。该方法在波兰 17th-18th 世纪历史词典的 2.8 万个索引卡上取得了 0.881 的准确率,为将来的 HTR 应用提供了可行的思路。
Mar, 2023
本文介绍了一个 less computationally expensive 的全页手写文本识别框架,其中包括使用对象检测神经网络定位手写文本并使用多尺度 CNN 提取特征,然后将其输入到双向长短期记忆网络进行文本识别。该框架使用更少的内存和时间达到与现有框架相当的错误率,展示了该框架的潜力。
Oct, 2019
通过引入与文本进行比较的任务,我们提出了一个无限制的二元分类器,其中包括一个手写识别特征提取器和一个多模态分类头,该分类头将特征提取器的输出与输入文本的向量表示进行卷积。我们的模型的分类头完全基于使用最先进的生成对抗网络创建的合成数据进行训练。我们证明,与直接使用最先进的手写识别模型来解决任务相比,尽管保持高回收率,但分类器可以进行校准,使平均精确度提高了 19.5%。这种巨大的性能提升可以在利用人 - 环自动化的应用中带来显著的生产力增长。
Sep, 2023
手写识别中,深度学习取得了显著成就。然而,神经网络在处理数据分布转变时存在问题。本文讨论如何使手写识别模型能够自适应不同风格的书写,通过使用少量新人笔迹的例子进行适应。通过两种基本模型以及模型无关元学习和作家代码两种方法,实验结果表明 MetaHTR 在适应性上优于基准模型,提高了 1.4 到 2.0 的词错误率,并且深层模型适应性好于浅层模型。然而,MetaHTR 在更大模型或句子级别的手写识别中的计算和内存需求可能变得不切实际,而基于学习特征或 Hinge 统计特征的作家代码并未提高识别性能。
Jul, 2023
该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别,其中结合了卷积神经网络进行视觉信息的提取,实验结果表明其相比于最近的序列到序列方法取得了显著提升。
Mar, 2019