基于 Google Web 1T 5-Gram 数据集的 OCR 上下文相关错误纠正

Apr, 2012

基于 Google Web 1T 5-Gram 数据集的 OCR 上下文相关错误纠正

OCR Context-Sensitive Error Correction Based on Google Web 1T 5-Gram Data Set

Youssef Bassil, Mohammad Alwani

TL;DR本文提出了一种后处理 OCR 上下文感应错误纠正方法，使用谷歌 Web 1T 5-gram 数据集作为单词的字典进行拼写检查 OCR 文本。该方法的核心是三种算法的组合：错误检测、候选拼写生成和错误更正算法。实验表明，该方法在不同语言的扫描图像中显著提高了 OCR 错误更正率。未来的发展将支持并行和分布式计算架构。

Abstract

Since the dawn of the computing era, information has been represented digitally so that it can be processed by electronic computers. Paper books and documents were abundant and widely being published at that time; and hence, there was a need to convert them into digital format. ocr, sh

optical character recognition ocr error correction google web 1t 5-gram parallel computing

发现论文，激发创造

利用 Google 在线拼写建议的 OCR 后处理错误校正算法

本文介绍了一种基于上下文的 OCR 错误纠正算法，它利用了 Google 在线拼写建议的内部数据库来检测和纠正 OCR 的非单词和真实单词错误。实验表明，该算法可以显著提高 OCR 纠错率。

Apr, 2012

神经光学字符识别历史文献后处理校正

本研究提出了一种基于循环神经网络和卷积神经网络的光学字符识别错误自动纠正方法，针对历史藏书文献的 OCR 后置处理，以很高的效率在德语历史图书文献语料库中降低了字符误差率 32.3％以上。

Feb, 2021

清洗珠：基于 Google OCR 藏文手稿的神经拼写校正模型

本篇论文介绍了一种使用 OCR 技术对西藏手稿进行数字化处理并采用神经拼写纠正模型进行自动纠正噪声输出的方法，通过 Transformer + 置信度得分机制，证明该方法比 Transformer，LSTM-2-LSTM 和 GRU-2-GRU 架构更为优越，为人文社科领域研究提供了方便。

Apr, 2023

针对濒危语言文本的 OCR 后校正

针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况，本文提出了一种从不可读的文本数据中提取文本的方法，具体而言，在三种极度濒危的语言中创建了一个基准数据集，并针对数据不足的 OCR 研究有效性做了系统分析，开发了一种针对数据不足的 OCR 后校正方法，平均可将识别错误率降低 34％。

Nov, 2020

面向 OCR 后校正的词汇感知半监督学习

该论文介绍了一种利用 OCR 生产的非数字化的图书和文件实现半监督学习的方法，并通过使用自我训练和词汇解码等技术在四种濒危语言上提高了 OCR 的相对准确率。

Nov, 2021

清洗脏数据：用于先前扫描文本的 OCR 后处理

本文探讨了语言模型的改进如何在不考虑扫描图像本身的情况下检测和纠正 OCR 错误，并给出了处理重复扫描图书的方法和单本文本的纠错方法以及扫描质量与其他因素的关系分析。

Oct, 2021

使用字符纠错和基于特征的单词分类来进行 OCR 错误纠正

该论文探讨了使用学习分类器进行后期 OCR 文本纠错的方法。阿拉伯语实验表明，这种方法结合加权混淆矩阵和浅层语言模型，可以改进我们数据集上绝大多数的分割和识别错误，这是最常见的类型。

Apr, 2016

优化神经网络训练以用于历史希伯来文本的 OCR 错误修正

本研究通过创新方法训练一种轻量级神经网络，用于希伯来语 OCR 后处理，使用少量手动创建的数据。通过实验发现，使用所提出方法训练的网络比随机生成错误更有效，性能强于 OCR 后校正和复杂拼写检查的最新神经网络。这些结果对许多数字人文项目具有实际意义。

Jul, 2023

为历史希伯来文本的 OCR 错误修正构建特定时期优化的神经网络

使用新的多阶段方法生成 OCR 错误的人工训练数据集，并进行超参数优化，以构建有效的神经网络来纠正希伯来语的 OCR 后校正。

Jul, 2023

优化文化打字文件字符识别图像处理算法

利用多目标问题公式和非支配排序遗传算法（NSGA-II）调整参数，本文评估了在光学字符识别（OCR）应用于打字文化遗产文件时图像处理方法和参数调整的影响，并发现通过数字表示类型来针对图像预处理算法进行参数化可以提高 OCR 的性能。特别是自适应阈值法、双边滤波器和开操作是剧院封面、信件和整体数据集中表现最好的算法，应在 OCR 之前应用以提高其性能。

Nov, 2023