为历史希伯来文本的 OCR 错误修正构建特定时期优化的神经网络

Jul, 2023

为历史希伯来文本的 OCR 错误修正构建特定时期优化的神经网络

Toward a Period-Specific Optimized Neural Network for OCR Error Correction of Historical Hebrew Texts

Omri Suissa, Maayan Zhitomirsky-Geffet, Avshalom Elmalech

TL;DR使用新的多阶段方法生成 OCR 错误的人工训练数据集，并进行超参数优化，以构建有效的神经网络来纠正希伯来语的 OCR 后校正。

Abstract

Over the past few decades, large archives of paper-based historical documents, such as books and newspapers, have been digitized using the Optical Character Recognition (OCR) technology. Unfortunately, this broadly used technology is error-prone, especially when an OCRed document was written hundreds of years ago. →

optical character recognition neural networks historical corpora hebrew ocr post-correction

发现论文，激发创造

优化神经网络训练以用于历史希伯来文本的 OCR 错误修正

本研究通过创新方法训练一种轻量级神经网络，用于希伯来语 OCR 后处理，使用少量手动创建的数据。通过实验发现，使用所提出方法训练的网络比随机生成错误更有效，性能强于 OCR 后校正和复杂拼写检查的最新神经网络。这些结果对许多数字人文项目具有实际意义。

Jul, 2023

神经光学字符识别历史文献后处理校正

本研究提出了一种基于循环神经网络和卷积神经网络的光学字符识别错误自动纠正方法，针对历史藏书文献的 OCR 后置处理，以很高的效率在德语历史图书文献语料库中降低了字符误差率 32.3％以上。

Feb, 2021

清洗珠：基于 Google OCR 藏文手稿的神经拼写校正模型

本篇论文介绍了一种使用 OCR 技术对西藏手稿进行数字化处理并采用神经拼写纠正模型进行自动纠正噪声输出的方法，通过 Transformer + 置信度得分机制，证明该方法比 Transformer，LSTM-2-LSTM 和 GRU-2-GRU 架构更为优越，为人文社科领域研究提供了方便。

Apr, 2023

从过去到未来：一种全自动的 NMT 和词嵌入方法，用于 OCR 后校正

文章介绍了一种全自动无监督方式，通过提取平行数据进行基于字符序列的序列到序列神经机器翻译模型（NMT）的训练，以进行 OCR 错误更正，解决历史语料库中 OCR 错误的问题。

Oct, 2019

针对濒危语言文本的 OCR 后校正

针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况，本文提出了一种从不可读的文本数据中提取文本的方法，具体而言，在三种极度濒危的语言中创建了一个基准数据集，并针对数据不足的 OCR 研究有效性做了系统分析，开发了一种针对数据不足的 OCR 后校正方法，平均可将识别错误率降低 34％。

Nov, 2020

基于 Google Web 1T 5-Gram 数据集的 OCR 上下文相关错误纠正

本文提出了一种后处理 OCR 上下文感应错误纠正方法，使用谷歌 Web 1T 5-gram 数据集作为单词的字典进行拼写检查 OCR 文本。该方法的核心是三种算法的组合：错误检测、候选拼写生成和错误更正算法。实验表明，该方法在不同语言的扫描图像中显著提高了 OCR 错误更正率。未来的发展将支持并行和分布式计算架构。

Apr, 2012

利用 Google 在线拼写建议的 OCR 后处理错误校正算法

本文介绍了一种基于上下文的 OCR 错误纠正算法，它利用了 Google 在线拼写建议的内部数据库来检测和纠正 OCR 的非单词和真实单词错误。实验表明，该算法可以显著提高 OCR 纠错率。

Apr, 2012

基于字符注意力机制的神经语言纠错

本文介绍了一种基于神经网络的自然语言校正方法，该方法以字符级别操作避免了词汇表外的问题，并展示了在语言学习者论坛收集的数据集上的灵活性和性能。与语言建模相结合后，该方法在 CoNLL 2014 共享任务中实现了最先进的 $F_{0.5}$- 分数。

Mar, 2016

构建多元数字历史的高效 OCR

通过对 OCR 进行字符级图像检索建模，解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足，并为社区参与使数字历史更具代表性开辟了新的途径。

Apr, 2023

使用字符纠错和基于特征的单词分类来进行 OCR 错误纠正

该论文探讨了使用学习分类器进行后期 OCR 文本纠错的方法。阿拉伯语实验表明，这种方法结合加权混淆矩阵和浅层语言模型，可以改进我们数据集上绝大多数的分割和识别错误，这是最常见的类型。

Apr, 2016