使用字符纠错和基于特征的单词分类来进行 OCR 错误纠正

Apr, 2016

使用字符纠错和基于特征的单词分类来进行 OCR 错误纠正

OCR Error Correction Using Character Correction and Feature-Based Word Classification

Ido Kissos, Nachum Dershowitz

TL;DR该论文探讨了使用学习分类器进行后期 OCR 文本纠错的方法。阿拉伯语实验表明，这种方法结合加权混淆矩阵和浅层语言模型，可以改进我们数据集上绝大多数的分割和识别错误，这是最常见的类型。

Abstract

This paper explores the use of a learned classifier for post-OCR text correction. Experiments with the arabic language show that this approach, which integrates a →

post-ocr text correction learned classifier arabic language weighted confusion matrix language model

发现论文，激发创造

利用 Google 在线拼写建议的 OCR 后处理错误校正算法

本文介绍了一种基于上下文的 OCR 错误纠正算法，它利用了 Google 在线拼写建议的内部数据库来检测和纠正 OCR 的非单词和真实单词错误。实验表明，该算法可以显著提高 OCR 纠错率。

Apr, 2012

神经光学字符识别历史文献后处理校正

本研究提出了一种基于循环神经网络和卷积神经网络的光学字符识别错误自动纠正方法，针对历史藏书文献的 OCR 后置处理，以很高的效率在德语历史图书文献语料库中降低了字符误差率 32.3％以上。

Feb, 2021

面向 OCR 后校正的词汇感知半监督学习

该论文介绍了一种利用 OCR 生产的非数字化的图书和文件实现半监督学习的方法，并通过使用自我训练和词汇解码等技术在四种濒危语言上提高了 OCR 的相对准确率。

Nov, 2021

优化神经网络训练以用于历史希伯来文本的 OCR 错误修正

本研究通过创新方法训练一种轻量级神经网络，用于希伯来语 OCR 后处理，使用少量手动创建的数据。通过实验发现，使用所提出方法训练的网络比随机生成错误更有效，性能强于 OCR 后校正和复杂拼写检查的最新神经网络。这些结果对许多数字人文项目具有实际意义。

Jul, 2023

基于 Google Web 1T 5-Gram 数据集的 OCR 上下文相关错误纠正

本文提出了一种后处理 OCR 上下文感应错误纠正方法，使用谷歌 Web 1T 5-gram 数据集作为单词的字典进行拼写检查 OCR 文本。该方法的核心是三种算法的组合：错误检测、候选拼写生成和错误更正算法。实验表明，该方法在不同语言的扫描图像中显著提高了 OCR 错误更正率。未来的发展将支持并行和分布式计算架构。

Apr, 2012

从过去到未来：一种全自动的 NMT 和词嵌入方法，用于 OCR 后校正

文章介绍了一种全自动无监督方式，通过提取平行数据进行基于字符序列的序列到序列神经机器翻译模型（NMT）的训练，以进行 OCR 错误更正，解决历史语料库中 OCR 错误的问题。

Oct, 2019

基于字符注意力机制的神经语言纠错

本文介绍了一种基于神经网络的自然语言校正方法，该方法以字符级别操作避免了词汇表外的问题，并展示了在语言学习者论坛收集的数据集上的灵活性和性能。与语言建模相结合后，该方法在 CoNLL 2014 共享任务中实现了最先进的 $F_{0.5}$- 分数。

Mar, 2016

为历史希伯来文本的 OCR 错误修正构建特定时期优化的神经网络

使用新的多阶段方法生成 OCR 错误的人工训练数据集，并进行超参数优化，以构建有效的神经网络来纠正希伯来语的 OCR 后校正。

Jul, 2023

针对濒危语言文本的 OCR 后校正

针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况，本文提出了一种从不可读的文本数据中提取文本的方法，具体而言，在三种极度濒危的语言中创建了一个基准数据集，并针对数据不足的 OCR 研究有效性做了系统分析，开发了一种针对数据不足的 OCR 后校正方法，平均可将识别错误率降低 34％。

Nov, 2020

基于监督学习的阿拉伯语拼写纠正

利用 QALB 语料库中提供的经过标注的代表有错误和更正版本的句子，本文的系统使用不同的机器学习模型对四种类型的拼写错误（修改、前添加、拆分和合并）进行修正，最终在 QALB 2014 年 “自动阿拉伯语错误修正” 任务中获得了 6 名中的第六名，F1 得分为 0.6。

Sep, 2014