一个定制的中世纪拉丁手写文本识别系统

Aug, 2023

一个定制的中世纪拉丁手写文本识别系统

A tailored Handwritten-Text-Recognition System for Medieval Latin

Philipp Koch, Gilary Vera Nuñez, Esteban Garces Arias, Christian Heumann, Matthias Schöffel...

TL;DR拜仁学院的中世纪拉丁字典数字化工作，采用了端到端的流水线，包括定位、提取和转录手写词条等步骤。使用最新的图像分割模型准备初始数据集，并尝试不同的基于 Transformer 的模型进行实验，采用丰富的数据增强技术，最佳设置的字符错误率为 0.015，表现优于商业的谷歌云视觉模型并且更加稳定。

Abstract

The Bavarian Academy of Sciences and Humanities aims to digitize its Medieval Latin Dictionary. This dictionary entails record cards referring to lemmas in medieval Latin, a low-resource language. A crucial step of the digitization process is the handwritten text recognition (HTR) of t

medieval latin dictionary handwritten text recognition image segmentation transformer-based models character error rate

发现论文，激发创造

针对资源匮乏语言和字母的词典来源的可扩展手写文本识别系统

本文介绍了一种解读大量手写历史词典索引卡的方法，使用一种特别设计的手写文本识别解决方案，包括优化的检测模型，SPN、RCNN 和 CTC 三种卷积神经网络结构，以及基于约束的单词匹配算法。该方法在波兰 17th-18th 世纪历史词典的 2.8 万个索引卡上取得了 0.881 的准确率，为将来的 HTR 应用提供了可行的思路。

Mar, 2023

基于 Transformer 的历史文献手写识别

本文比较了 TrOCR 框架和 SOTA HTR 框架（Transkribus）用于对历史手稿的识别，发现 TrOCR 表示出类似或更好的性能且少量训练即可在英语以外的其他基于拉丁字母的语种上进行迁移学习。

Mar, 2022

一个可扩展的手写文本识别系统

本研究主要解决将手写文本识别能力添加到大规模多语言 OCR 系统中的难点，包括数据获取，效率和集成等三个方面，通过使用在线手写数据集和基于神经网络的线识别模型等方式解决了这些问题，实现了 HTR 能力在 OCR 系统中的集成。

Apr, 2019

一种基于 Transformer 模型的端到端 OCR 框架，用于识别具有变音符的大规模古典阿拉伯文多字体语料库的手写体 Arabic 识别

本文介绍了针对阿拉伯历史文献的光学字符识别技术的研究，提出了一种端到端文本识别方法 BEIT，并通过实验比较证明，该方法优于卷积神经网络的特征提取方法，达到了 4.46% 的识别准确率。

Aug, 2022

无真实材料的手写文本识别模型评估

这篇论文介绍了在应用阶段中评估手写文本识别 (HTR) 模型所面临的问题，以及介绍了使用不依赖于地面真实文本数据的指标来选择最佳模型的方法，其中包括使用标准语言模型和遮盖语言模型 (MLM) 的复杂度更高的方法，并表明 MLM 评估可以与基于词典的方法相竞争，其优点在于大型和多语言 Transformer 是随时可以使用的。

Jan, 2022

hmBERT: 历史多语言语言模型用于命名实体识别

本篇研究讨论了针对历史文本进行命名实体识别的挑战，并提出使用大型历史语言模型 hmBERT 预训练来解决标注数据不充足的问题，并使用 HIPE-2022 共享任务来评估模型性能。

May, 2022

BN-HTRd: 一份用于离线孟加拉文手写文本识别（HTR）和行分割的基准数据集

该文章介绍了一个新的离线手写文本识别数据集，集中在孟加拉文字的图像上，该数据集包括 788 张手写页面图像和一个用于无监督聚类线分割的方案。该数据集可以用于各种手写文档识别、词识别、词或行分割等任务。

May, 2022

如何选择预训练的手写识别模型用于单作者微调

通过对大型基准数据集和通过手写文本生成模型产生的合成数据集的研究，本文提出在大数据集上预训练手写文本识别模型，并在少量带有个人特点手写的小规模数据集上进行微调，以有效转录手稿。

May, 2023

基于 Transformer 的阿拉伯离线手写文本识别方法

手写识别是模式识别和机器学习领域中具有挑战性和关键问题，其应用领域广泛。本文专注于离线阿拉伯手写文本识别问题，并引入两种替代架构，即 Transformer Transducer 和标准序列到序列 Transformer，并比较它们在准确性和速度方面的性能表现，结果显示我们的方法在识别离线阿拉伯手写文本方面优于当前最先进的方法。

Jul, 2023

基于空间环境的自监督学习用于手写文本识别

手写文本识别 (HTR) 是计算机视觉中一个相关的问题，由于其固有的可变性和对其解释所需的丰富的环境依赖性，其面临独特的挑战。本文研究了一种名为空间上下文自我监督学习（Spatial Context-based SSL）的方法，并探索了该方法在 HTR 中的应用和优化。我们的实验表明，所考虑的方法在一些基准案例中推动了 HTR 领域自我监督学习的最新技术进展。

Apr, 2024