- Muharaf:手写阿拉伯文连续文本识别的手稿数据集
我们提供了一个由历史手写页面图像组成的机器学习数据集,每个文档图像配有文字行的空间多边形坐标以及基本页面元素,可用于提升手写文本识别的技术水平。该数据集包含不同的手写风格和各种文档类型,并介绍了数据获取过程、数据集特征和统计信息,同时提供了 - GatedLexiconNet:一种全面的端到端手写段落文本识别系统
手写文本识别中的问题一直是研究人员面临的挑战,本研究提出了一种融合内部线段切分和门控卷积层编码器的端到端段落识别系统,使用基于连接主义时间分类的词束搜索解码器作为后处理步骤,取得了较高的识别准确率。
- 基于空间环境的自监督学习用于手写文本识别
手写文本识别 (HTR) 是计算机视觉中一个相关的问题,由于其固有的可变性和对其解释所需的丰富的环境依赖性,其面临独特的挑战。本文研究了一种名为空间上下文自我监督学习(Spatial Context-based SSL)的方法,并探索了该方 - 手写文本识别系统的最佳实践
手写文本识别已得到迅速发展,本论文通过实验证明了在预处理、CNN 架构和 CTC 损失三个方面的简单修改,可以提高手写文本识别系统的性能。
- 一个定制的中世纪拉丁手写文本识别系统
拜仁学院的中世纪拉丁字典数字化工作,采用了端到端的流水线,包括定位、提取和转录手写词条等步骤。使用最新的图像分割模型准备初始数据集,并尝试不同的基于 Transformer 的模型进行实验,采用丰富的数据增强技术,最佳设置的字符错误率为 0 - 众包标注中的手写文本识别
本文研究了多种训练模型的方式来识别手写文本,特别是在存在多个不完整或有噪声的转录版本时,考虑了不同的训练配置和数据选择方法,并在法国贝尔福市的城市登记册上进行了实验,结果表明,计算共识转录或基于多个转录进行训练是有希望的替代方案,但基于注释 - 如何选择预训练的手写识别模型用于单作者微调
通过对大型基准数据集和通过手写文本生成模型产生的合成数据集的研究,本文提出在大数据集上预训练手写文本识别模型,并在少量带有个人特点手写的小规模数据集上进行微调,以有效转录手稿。
- 针对资源匮乏语言和字母的词典来源的可扩展手写文本识别系统
本文介绍了一种解读大量手写历史词典索引卡的方法,使用一种特别设计的手写文本识别解决方案,包括优化的检测模型,SPN、RCNN 和 CTC 三种卷积神经网络结构,以及基于约束的单词匹配算法。该方法在波兰 17th-18th 世纪历史词典的 2 - 手写文字识别的 2D 自组织 ONN 模型
本研究提出了一种新的神经网络模型,其中包含了 2D 自组织 ONNs 和可变形卷积。在 IAM 英语数据集和 HADARA80P 阿拉伯语数据集上,将 Self-ONNs 操作层与可变形卷积相结合,大幅减少了字符错误率和词错误率,且性能显著 - Easter2.0:改进手写文字识别中的卷积模型
本文介绍了使用卷积神经网络进行手写文本识别的 Easter2.0 体系结构,并提出了一种数据增强技术 'Tiling and Corruption',在仅使用公开训练数据时在 IAM 手写数据库上实现了最先进的结果。
- 无真实材料的手写文本识别模型评估
这篇论文介绍了在应用阶段中评估手写文本识别 (HTR) 模型所面临的问题,以及介绍了使用不依赖于地面真实文本数据的指标来选择最佳模型的方法,其中包括使用标准语言模型和遮盖语言模型 (MLM) 的复杂度更高的方法,并表明 MLM 评估可以与基 - CVPRMetaHTR:面向作者自适应的手写文本识别
本文提出了一种新颖的元学习框架,该框架可以在推理过程中通过支持集合利用额外的新作者数据并通过单个梯度步更新输出作者自适应模型,这个模型可以在最先进的 HTR 模型之上轻松实现,并且可以在极少的新风格数据下实现平均 5-7% 的性能提升。
- CVPRScrabbleGAN:半监督变长手写文本生成
介绍一种基于半监督学习的手写文本图像合成方法,该方法可生成任意长度的词汇风格多样的手写文本图像,并实现其风格的操纵,能够提高光学字符识别系统的性能。
- AAAI文本识别的解耦注意力网络
提出了一种新的解决注意力机制中的历史解码结果对齐精度不够的问题的方法,叫做解耦式注意力网络 (DAN),并在手写文本识别以及正常 / 非正常场景文本识别等多个文本识别任务中取得了最先进的性能表现。
- 用于合成至真实手写单词识别的无监督适应
本文提出一种无监督的写手适应方法,使用合成字体完全训练出的识别器自动适应新的入职写手,从而提供了一种实用且通用的方法来处理新的文档收集,而不需要任何昂贵和繁琐的手动注释步骤。
- 评估序列到序列模型在手写文本识别中的应用
该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别,其中结合了卷积神经网络进行视觉信息的提取,实验结果表明其相比于最近的序列到序列方法取得了显著提升。
- 一种高效的端到端神经模型用于手写文本识别
本文提出一种将卷积神经网络和序列到序列模型相结合,将图像映射到文本序列,实现手写文本识别能力,且采用 Focal Loss 方法解决文本识别的类别不平衡问题,并应用 Beam Search 算法来提升模型的解码性能,在常见的 IAM 和 R - 多维循环神经网络中的细胞
使用多维循环神经网络 (MDRNN) 与时序分类 (CTC) 的方法来识别图像上的手写文字,并通过引入一维 LSTM 单元的有用和必要属性来提高其稳定性,在 IFN/ENIT 和 Rimes 数据库上比较并展示其在手写字体识别上的提高效果。