针对濒危语言文本的 OCR 后校正

EMNLPNov, 2020

OCR Post Correction for Endangered Language Texts

Shruti Rijhwani, Antonios Anastasopoulos, Graham Neubig

TL;DR针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况，本文提出了一种从不可读的文本数据中提取文本的方法，具体而言，在三种极度濒危的语言中创建了一个基准数据集，并针对数据不足的 OCR 研究有效性做了系统分析，开发了一种针对数据不足的 OCR 后校正方法，平均可将识别错误率降低 34％。

Abstract

There is little to no data available to build natural language processing models for most endangered languages. However, textual data in t

natural language processing endangered languages ocr post-correction machine-readable textual data

发现论文，激发创造

OCR 提升低资源语言机器翻译

研究低资源语言和脚本的 OCR 系统表现。引入 OCR4MT 基准测试，并使用真实和合成数据进行了丰富，以评估最先进的 OCR 系统，分析最常见的错误。表明 OCR 单语数据是一种有价值的资源，可以在回译中提高机器翻译模型的性能。通过消融研究来调查 OCR 误差如何影响机器翻译性能，并确定用于机器翻译有用的单语数据的最小 OCR 质量水平是多少。

Feb, 2022

嘈杂的并行数据对齐

本研究旨在研究现有的词级联模型在嘈杂环境下的对齐问题，并通过噪声模拟和结构偏置的方法提高模型的稳健性，从而显著降低基于神经网络的对齐模型的对齐误差率。

Jan, 2023

Kwak'wala OCR 系统的用户中心评估

本文提出了 OCR 系统的人类中心评估方法，并以 Kwak'wala 语作为案例研究，证明利用 OCR 技术可以大幅减少手动文本转录所需的时间，尤其对濒临灭绝的语言社区和研究人员，对语言文献的记录和活化具有潜在的益处。

Feb, 2023

优化神经网络训练以用于历史希伯来文本的 OCR 错误修正

本研究通过创新方法训练一种轻量级神经网络，用于希伯来语 OCR 后处理，使用少量手动创建的数据。通过实验发现，使用所提出方法训练的网络比随机生成错误更有效，性能强于 OCR 后校正和复杂拼写检查的最新神经网络。这些结果对许多数字人文项目具有实际意义。

Jul, 2023

梵文 OCR 后文本校正的基准和数据集

在这项工作中，我们发布了一个后 OCR 文本校正数据集，其中包含来自 30 本不同书籍的约 218,000 个句子，共 1.5 百万个单词，涵盖了天文学、医学和数学等多个领域，其中一些可追溯到 18 个世纪。我们还发布了基于预训练 Seq2Seq 语言模型的多个强基线作为任务的基准。通过字节级标记和音素编码（Byt5+SLP1）的最佳模型，我们在单词和字符错误率方面取得了 23％的增加。

Nov, 2022

OCR 噪声对语言模型的影响评估

本研究旨在分析 OCR 噪声对多语种语言模型的影响，并发现 OCR 噪声会对语言模型造成显著影响，特别是在少量语料库的情况下，简单的语言模型如 PPMI 和 Word2Vec 可以更好地应对 OCR 噪声。

Jan, 2022

基于 Google Web 1T 5-Gram 数据集的 OCR 上下文相关错误纠正

本文提出了一种后处理 OCR 上下文感应错误纠正方法，使用谷歌 Web 1T 5-gram 数据集作为单词的字典进行拼写检查 OCR 文本。该方法的核心是三种算法的组合：错误检测、候选拼写生成和错误更正算法。实验表明，该方法在不同语言的扫描图像中显著提高了 OCR 错误更正率。未来的发展将支持并行和分布式计算架构。

Apr, 2012

神经光学字符识别历史文献后处理校正

本研究提出了一种基于循环神经网络和卷积神经网络的光学字符识别错误自动纠正方法，针对历史藏书文献的 OCR 后置处理，以很高的效率在德语历史图书文献语料库中降低了字符误差率 32.3％以上。

Feb, 2021

面向 OCR 后校正的词汇感知半监督学习

该论文介绍了一种利用 OCR 生产的非数字化的图书和文件实现半监督学习的方法，并通过使用自我训练和词汇解码等技术在四种濒危语言上提高了 OCR 的相对准确率。

Nov, 2021

为历史希伯来文本的 OCR 错误修正构建特定时期优化的神经网络

使用新的多阶段方法生成 OCR 错误的人工训练数据集，并进行超参数优化，以构建有效的神经网络来纠正希伯来语的 OCR 后校正。

Jul, 2023