使用字符纠错和基于特征的单词分类来进行 OCR 错误纠正
本文介绍了一种基于上下文的 OCR 错误纠正算法,它利用了 Google 在线拼写建议的内部数据库来检测和纠正 OCR 的非单词和真实单词错误。实验表明,该算法可以显著提高 OCR 纠错率。
Apr, 2012
本研究提出了一种基于循环神经网络和卷积神经网络的光学字符识别错误自动纠正方法,针对历史藏书文献的 OCR 后置处理,以很高的效率在德语历史图书文献语料库中降低了字符误差率 32.3%以上。
Feb, 2021
该论文介绍了一种利用 OCR 生产的非数字化的图书和文件实现半监督学习的方法,并通过使用自我训练和词汇解码等技术在四种濒危语言上提高了 OCR 的相对准确率。
Nov, 2021
本研究通过创新方法训练一种轻量级神经网络,用于希伯来语 OCR 后处理,使用少量手动创建的数据。通过实验发现,使用所提出方法训练的网络比随机生成错误更有效,性能强于 OCR 后校正和复杂拼写检查的最新神经网络。这些结果对许多数字人文项目具有实际意义。
Jul, 2023
本文提出了一种后处理 OCR 上下文感应错误纠正方法,使用谷歌 Web 1T 5-gram 数据集作为单词的字典进行拼写检查 OCR 文本。该方法的核心是三种算法的组合:错误检测、候选拼写生成和错误更正算法。实验表明,该方法在不同语言的扫描图像中显著提高了 OCR 错误更正率。未来的发展将支持并行和分布式计算架构。
Apr, 2012
文章介绍了一种全自动无监督方式,通过提取平行数据进行基于字符序列的序列到序列神经机器翻译模型(NMT)的训练,以进行 OCR 错误更正,解决历史语料库中 OCR 错误的问题。
Oct, 2019
本文介绍了一种基于神经网络的自然语言校正方法,该方法以字符级别操作避免了词汇表外的问题,并展示了在语言学习者论坛收集的数据集上的灵活性和性能。与语言建模相结合后,该方法在 CoNLL 2014 共享任务中实现了最先进的 $F_{0.5}$- 分数。
Mar, 2016
使用新的多阶段方法生成 OCR 错误的人工训练数据集,并进行超参数优化,以构建有效的神经网络来纠正希伯来语的 OCR 后校正。
Jul, 2023
针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况,本文提出了一种从不可读的文本数据中提取文本的方法,具体而言,在三种极度濒危的语言中创建了一个基准数据集,并针对数据不足的 OCR 研究有效性做了系统分析,开发了一种针对数据不足的 OCR 后校正方法,平均可将识别错误率降低 34%。
Nov, 2020
利用 QALB 语料库中提供的经过标注的代表有错误和更正版本的句子,本文的系统使用不同的机器学习模型对四种类型的拼写错误(修改、前添加、拆分和合并)进行修正,最终在 QALB 2014 年 “自动阿拉伯语错误修正” 任务中获得了 6 名中的第六名,F1 得分为 0.6。
Sep, 2014