为历史希伯来文本的 OCR 错误修正构建特定时期优化的神经网络
本研究通过创新方法训练一种轻量级神经网络,用于希伯来语 OCR 后处理,使用少量手动创建的数据。通过实验发现,使用所提出方法训练的网络比随机生成错误更有效,性能强于 OCR 后校正和复杂拼写检查的最新神经网络。这些结果对许多数字人文项目具有实际意义。
Jul, 2023
本研究提出了一种基于循环神经网络和卷积神经网络的光学字符识别错误自动纠正方法,针对历史藏书文献的 OCR 后置处理,以很高的效率在德语历史图书文献语料库中降低了字符误差率 32.3%以上。
Feb, 2021
本篇论文介绍了一种使用 OCR 技术对西藏手稿进行数字化处理并采用神经拼写纠正模型进行自动纠正噪声输出的方法, 通过 Transformer + 置信度得分机制,证明该方法比 Transformer,LSTM-2-LSTM 和 GRU-2-GRU 架构更为优越,为人文社科领域研究提供了方便。
Apr, 2023
文章介绍了一种全自动无监督方式,通过提取平行数据进行基于字符序列的序列到序列神经机器翻译模型(NMT)的训练,以进行 OCR 错误更正,解决历史语料库中 OCR 错误的问题。
Oct, 2019
针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况,本文提出了一种从不可读的文本数据中提取文本的方法,具体而言,在三种极度濒危的语言中创建了一个基准数据集,并针对数据不足的 OCR 研究有效性做了系统分析,开发了一种针对数据不足的 OCR 后校正方法,平均可将识别错误率降低 34%。
Nov, 2020
本文提出了一种后处理 OCR 上下文感应错误纠正方法,使用谷歌 Web 1T 5-gram 数据集作为单词的字典进行拼写检查 OCR 文本。该方法的核心是三种算法的组合:错误检测、候选拼写生成和错误更正算法。实验表明,该方法在不同语言的扫描图像中显著提高了 OCR 错误更正率。未来的发展将支持并行和分布式计算架构。
Apr, 2012
本文介绍了一种基于上下文的 OCR 错误纠正算法,它利用了 Google 在线拼写建议的内部数据库来检测和纠正 OCR 的非单词和真实单词错误。实验表明,该算法可以显著提高 OCR 纠错率。
Apr, 2012
本文介绍了一种基于神经网络的自然语言校正方法,该方法以字符级别操作避免了词汇表外的问题,并展示了在语言学习者论坛收集的数据集上的灵活性和性能。与语言建模相结合后,该方法在 CoNLL 2014 共享任务中实现了最先进的 $F_{0.5}$- 分数。
Mar, 2016
通过对 OCR 进行字符级图像检索建模,解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足,并为社区参与使数字历史更具代表性开辟了新的途径。
Apr, 2023
该论文探讨了使用学习分类器进行后期 OCR 文本纠错的方法。阿拉伯语实验表明,这种方法结合加权混淆矩阵和浅层语言模型,可以改进我们数据集上绝大多数的分割和识别错误,这是最常见的类型。
Apr, 2016