手写速记识别与狮子数据集
本文介绍了一种支持 102 种语言的在线手写系统,采用深度神经网络架构和贝塞尔曲线的新输入编码,与之前的系统相比降低了 20%-40% 的错误率,并在 IAM-OnDB 数据集上取得了新的最优结果。通过实验确定了模型的最优配置,并在多个公共数据集上进行了评估。
Feb, 2019
本文介绍了一种解读大量手写历史词典索引卡的方法,使用一种特别设计的手写文本识别解决方案,包括优化的检测模型,SPN、RCNN 和 CTC 三种卷积神经网络结构,以及基于约束的单词匹配算法。该方法在波兰 17th-18th 世纪历史词典的 2.8 万个索引卡上取得了 0.881 的准确率,为将来的 HTR 应用提供了可行的思路。
Mar, 2023
手写文本识别中的问题一直是研究人员面临的挑战,本研究提出了一种融合内部线段切分和门控卷积层编码器的端到端段落识别系统,使用基于连接主义时间分类的词束搜索解码器作为后处理步骤,取得了较高的识别准确率。
Apr, 2024
司法笔迹鉴定是法医科学的一个分支,旨在通过全面比较内在的局部和全局特征,检验手写文件以准确定义或假设手稿的作者。该研究提出了一个新的数据集,包括传统手写文件和数字工具(如平板电脑)生成的文件之间的比较,并展示了数据的初步结果,显示第一子集可以达到 90%的分类准确率,第二子集可以达到 96%。
Jan, 2024
本文针对英文手写体识别问题,提出了一种基于 CNN-BiLSTM 系统的解决方案,并在公共 IAM 数据集上进行了广泛评估,包括模型大小、数据增强和词汇表的影响。其中采用 CTC 层的 CNN-BiLSTM 网络达到了 3.59% 的 CER 和 9.44% 的 WER。通过旋转和平移变换的测试时间增强方式,可以增加难识别情况的识别率,将单词错误率降低了 2.5 个百分点。此外,我们还对 IAM 数据集上的误差进行了分析,展示了手写图像中的难点,并探索了标签错误的样本。我们提供我们的源代码作为公共领域,以促进进一步的研究,鼓励科学可重复性。
Jul, 2023
该论文介绍了一种针对手写西里尔文文本的后光学字符识别校正(POC)的新方法,该方法利用 Bézier 曲线生成引擎生成高度逼真的手写文本,并应用手写文本识别模型识别 OCR 错误,从而进行校正。
Nov, 2023
拜仁学院的中世纪拉丁字典数字化工作,采用了端到端的流水线,包括定位、提取和转录手写词条等步骤。使用最新的图像分割模型准备初始数据集,并尝试不同的基于 Transformer 的模型进行实验,采用丰富的数据增强技术,最佳设置的字符错误率为 0.015,表现优于商业的谷歌云视觉模型并且更加稳定。
Aug, 2023
通过自我训练在测试时间适应模型的方法,在多个基准数据集和其受损版本上进行了严格评估,实验证明这种自我训练的方法在几次迭代后可以将字符错误率绝对改进高达 8%。
Aug, 2023
通过对大型基准数据集和通过手写文本生成模型产生的合成数据集的研究,本文提出在大数据集上预训练手写文本识别模型,并在少量带有个人特点手写的小规模数据集上进行微调,以有效转录手稿。
May, 2023
本文提出一种将卷积神经网络和序列到序列模型相结合,将图像映射到文本序列,实现手写文本识别能力,且采用 Focal Loss 方法解决文本识别的类别不平衡问题,并应用 Beam Search 算法来提升模型的解码性能,在常见的 IAM 和 RIMES 数据集上实验表明,本文提出的模型在词级别的准确率方面分别提高了 3.5%和 1.1%,达到了国际先进水平。
Jul, 2018