离线手写识别的大型训练数据集 CENSUS-HWR

May, 2023

离线手写识别的大型训练数据集 CENSUS-HWR

CENSUS-HWR: a large training dataset for offline handwriting recognition

Chetan Joshi, Lawry Sorenson, Ammon Wolfert, Dr. Mark Clement, Dr. Joseph Price...

TL;DR本文介绍了一个新的数据集 CENSUS-HWR，包含 1812014 个灰度图像，用于训练自动手写体识别模型，可以作为深度学习算法的基准，该数据集来自美国 1930 和 1940 年的人口普查，可免费下载。

Abstract

Progress in automated handwriting recognition has been hampered by the lack of large training datasets. Nearly all research uses a set of small datasets that often cause models to overfit. We present

automated handwriting recognition training datasets census-hwr deep learning algorithms english language

发现论文，激发创造

MathWriting: 数学手写表达识别数据集

介绍了 MathWriting 数据集，它是迄今为止最大的在线手写数学表达式数据集，包含 23 万人工书写样本和 40 万个合成样本。MathWriting 还可用于离线 HME 识别，并且比所有现有的离线 HME 数据集（如 IM2LATEX-100K）都要大。为了推进在线和离线 HME 识别的研究，引入了基于 MathWriting 数据的基准测试。

Apr, 2024

针对资源匮乏语言和字母的词典来源的可扩展手写文本识别系统

本文介绍了一种解读大量手写历史词典索引卡的方法，使用一种特别设计的手写文本识别解决方案，包括优化的检测模型，SPN、RCNN 和 CTC 三种卷积神经网络结构，以及基于约束的单词匹配算法。该方法在波兰 17th-18th 世纪历史词典的 2.8 万个索引卡上取得了 0.881 的准确率，为将来的 HTR 应用提供了可行的思路。

Mar, 2023

卷积识别模型特征与文本标签相结合的离线检测错误拼写的手写词

通过引入与文本进行比较的任务，我们提出了一个无限制的二元分类器，其中包括一个手写识别特征提取器和一个多模态分类头，该分类头将特征提取器的输出与输入文本的向量表示进行卷积。我们的模型的分类头完全基于使用最先进的生成对抗网络创建的合成数据进行训练。我们证明，与直接使用最先进的手写识别模型来解决任务相比，尽管保持高回收率，但分类器可以进行校准，使平均精确度提高了 19.5%。这种巨大的性能提升可以在利用人 - 环自动化的应用中带来显著的生产力增长。

Sep, 2023

BN-HTRd: 一份用于离线孟加拉文手写文本识别（HTR）和行分割的基准数据集

该文章介绍了一个新的离线手写文本识别数据集，集中在孟加拉文字的图像上，该数据集包括 788 张手写页面图像和一个用于无监督聚类线分割的方案。该数据集可以用于各种手写文档识别、词识别、词或行分割等任务。

May, 2022

TextCaps: 使用非常小的数据集进行手写字符识别

本文介绍了一种技术，通过加入实际的随机噪声到参数实例化中，从现有样本生成新的训练样本数据，以实现针对缺少大量标记数据的本地语言的字符识别，同时可用于物体识别等相关上下文。

Apr, 2019

离线手写中文文本识别与卷积神经网络

本文研究基于深度学习的方法在离线手写中文文本识别领域的应用，使用只有卷积神经网络的模型和 CTC 损失函数实现，采用 Dropout 方法以防止过拟合，最终在 ICDAR 2013 竞赛数据集上实现了 6.81% 的字符错误率，为同等条件下最好的研究结果。

Jun, 2020

一个可扩展的手写文本识别系统

本研究主要解决将手写文本识别能力添加到大规模多语言 OCR 系统中的难点，包括数据获取，效率和集成等三个方面，通过使用在线手写数据集和基于神经网络的线识别模型等方式解决了这些问题，实现了 HTR 能力在 OCR 系统中的集成。

Apr, 2019

UIT-HWDB: 使用转移学习方法构建越南随笔手写图像识别的新基准

本文提出了转移方法来构建手写图像数据集，以有效评估离线手写识别方法。我们提供了一个高质量的合成数据集，并使用各种现有方法进行了实验，以找出解决越南语手写识别问题的挑战。

Nov, 2022

Muharaf：手写阿拉伯文连续文本识别的手稿数据集

我们提供了一个由历史手写页面图像组成的机器学习数据集，每个文档图像配有文字行的空间多边形坐标以及基本页面元素，可用于提升手写文本识别的技术水平。该数据集包含不同的手写风格和各种文档类型，并介绍了数据获取过程、数据集特征和统计信息，同时提供了使用此数据进行训练的卷积神经网络的初步基线结果。

Jun, 2024

众包标注中的手写文本识别

本文研究了多种训练模型的方式来识别手写文本，特别是在存在多个不完整或有噪声的转录版本时，考虑了不同的训练配置和数据选择方法，并在法国贝尔福市的城市登记册上进行了实验，结果表明，计算共识转录或基于多个转录进行训练是有希望的替代方案，但基于注释者之间的一致程度选择训练样本会引入偏差并不能提高结果。

Jun, 2023