基于 Transformer 的历史文献手写识别

Mar, 2022

基于 Transformer 的历史文献手写识别

Transformer-based HTR for Historical Documents

Phillip Benjamin Ströbel, Simon Clematide, Martin Volk, Tobias Hodel

TL;DR本文比较了 TrOCR 框架和 SOTA HTR 框架（Transkribus）用于对历史手稿的识别，发现 TrOCR 表示出类似或更好的性能且少量训练即可在英语以外的其他基于拉丁字母的语种上进行迁移学习。

Abstract

We apply the trocr framework to real-world, historical manuscripts and show that TrOCR per se is a strong model, ideal for transfer learning

trocr framework historical manuscripts transfer learning htr framework fine-tune

发现论文，激发创造

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

一个定制的中世纪拉丁手写文本识别系统

拜仁学院的中世纪拉丁字典数字化工作，采用了端到端的流水线，包括定位、提取和转录手写词条等步骤。使用最新的图像分割模型准备初始数据集，并尝试不同的基于 Transformer 的模型进行实验，采用丰富的数据增强技术，最佳设置的字符错误率为 0.015，表现优于商业的谷歌云视觉模型并且更加稳定。

Aug, 2023

一个可扩展的手写文本识别系统

本研究主要解决将手写文本识别能力添加到大规模多语言 OCR 系统中的难点，包括数据获取，效率和集成等三个方面，通过使用在线手写数据集和基于神经网络的线识别模型等方式解决了这些问题，实现了 HTR 能力在 OCR 系统中的集成。

Apr, 2019

一种基于 Transformer 模型的端到端 OCR 框架，用于识别具有变音符的大规模古典阿拉伯文多字体语料库的手写体 Arabic 识别

本文介绍了针对阿拉伯历史文献的光学字符识别技术的研究，提出了一种端到端文本识别方法 BEIT，并通过实验比较证明，该方法优于卷积神经网络的特征提取方法，达到了 4.46% 的识别准确率。

Aug, 2022

DTrOCR：解码器专用的 Transformer 用于光学字符识别

通过使用 Decoder-only Transformer 作为生成式语言模型，本研究提出了一种相对简单而有效的文本识别方法 DTrOCR，实验结果表明 DTrOCR 在识别印刷、手写和场景文本方面比当前的最先进方法表现出更好的性能。

Aug, 2023

DLoRA-TrOCR：基于 Transformer 的混合文本模式光学字符识别

本研究旨在通过对预训练基础 OCR 模型进行有效的参数微调，在各种下游任务中展示出卓越的性能。我们提出了一种基于预训练 OCR Transformer 的参数高效混合文本识别方法，即 DLoRA-TrOCR。该方法将 DoRA 嵌入图像编码器和 LoRA 嵌入文本解码器的内部结构，使得下游任务的参数微调更加高效。实验结果表明，与类似的参数调整方法相比，我们的模型 DLoRA-TrOCR 具有最少的参数，并且表现更好。它可以在包括混合手写、印刷和街景文本的复杂场景数据集上取得最先进的性能。

Apr, 2024

针对资源匮乏语言和字母的词典来源的可扩展手写文本识别系统

本文介绍了一种解读大量手写历史词典索引卡的方法，使用一种特别设计的手写文本识别解决方案，包括优化的检测模型，SPN、RCNN 和 CTC 三种卷积神经网络结构，以及基于约束的单词匹配算法。该方法在波兰 17th-18th 世纪历史词典的 2.8 万个索引卡上取得了 0.881 的准确率，为将来的 HTR 应用提供了可行的思路。

Mar, 2023

TransDocs：基于光学字符识别和逐字翻译的翻译工具

本研究旨在提高 OCR 质量，通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译，并在英语到西班牙语翻译中显示了深度学习模型的比较研究，将终端到终端的性能用 BLEU-4 评分表达，旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。

Apr, 2023

如何选择预训练的手写识别模型用于单作者微调

通过对大型基准数据集和通过手写文本生成模型产生的合成数据集的研究，本文提出在大数据集上预训练手写文本识别模型，并在少量带有个人特点手写的小规模数据集上进行微调，以有效转录手稿。

May, 2023

LOCR：基于位置引导的光学字符识别 Transformer

教育文档的光学字符识别 (OCR) 模型 LOCR，通过在自回归过程中将位置引导集成到变压器架构中，有效地解决了复杂布局文档中的重复问题，提高了准确性，同时还提供了交互式 OCR 模式。

Mar, 2024