利用印刻梵文的 OCR 进行后 OCR 文本校正

Sep, 2018

利用印刻梵文的 OCR 进行后 OCR 文本校正

Upcycle Your OCR: Reusing OCRs for Post-OCR Text Correction in Romanised Sanskrit

Amrith Krishna, Bodhisattwa Prasad Majumder, Rajesh Shreedhar Bhat, Pawan Goyal

TL;DR针对罗马化梵文文本数字化的后 OCR 文本纠正方法，使用其他罗马字母语言的 OCR 模型进行训练，通过合成数据生成来训练模型，并使用一种复制机制来提高字符识别率。实验结果表明，该模型在解决单调序列 - 序列任务方面比当前最先进的模型结果提高了 7.69%，能够有效地减少 OCR 产生的错误。此外，该模型的预测结果可被人类更快地理解和改进。

Abstract

We propose a post-ocr text correction approach for digitising texts in romanised sanskrit. Owing to the lack of resources our approach uses ocr m

post-ocr text correction romanised sanskrit ocr models copying mechanism character recognition rate

发现论文，激发创造

梵文 OCR 后文本校正的基准和数据集

在这项工作中，我们发布了一个后 OCR 文本校正数据集，其中包含来自 30 本不同书籍的约 218,000 个句子，共 1.5 百万个单词，涵盖了天文学、医学和数学等多个领域，其中一些可追溯到 18 个世纪。我们还发布了基于预训练 Seq2Seq 语言模型的多个强基线作为任务的基准。通过字节级标记和音素编码（Byt5+SLP1）的最佳模型，我们在单词和字符错误率方面取得了 23％的增加。

Nov, 2022

神经光学字符识别历史文献后处理校正

本研究提出了一种基于循环神经网络和卷积神经网络的光学字符识别错误自动纠正方法，针对历史藏书文献的 OCR 后置处理，以很高的效率在德语历史图书文献语料库中降低了字符误差率 32.3％以上。

Feb, 2021

针对濒危语言文本的 OCR 后校正

针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况，本文提出了一种从不可读的文本数据中提取文本的方法，具体而言，在三种极度濒危的语言中创建了一个基准数据集，并针对数据不足的 OCR 研究有效性做了系统分析，开发了一种针对数据不足的 OCR 后校正方法，平均可将识别错误率降低 34％。

Nov, 2020

基于 CTC 模型的印度语言 OCR 的实证研究

该论文研究了用 CTC 建立神经网络模型的方法，将 13 种印度语言的文字识别单位定为行或单词，使用合成数据训练模型，对比公共 OCR 工具，提出了新的公共数据集 Mozhi，实现了在印度语言中进行单词和行识别的 OCR。

May, 2022

面向 OCR 后校正的词汇感知半监督学习

该论文介绍了一种利用 OCR 生产的非数字化的图书和文件实现半监督学习的方法，并通过使用自我训练和词汇解码等技术在四种濒危语言上提高了 OCR 的相对准确率。

Nov, 2021

OCR 提升低资源语言机器翻译

研究低资源语言和脚本的 OCR 系统表现。引入 OCR4MT 基准测试，并使用真实和合成数据进行了丰富，以评估最先进的 OCR 系统，分析最常见的错误。表明 OCR 单语数据是一种有价值的资源，可以在回译中提高机器翻译模型的性能。通过消融研究来调查 OCR 误差如何影响机器翻译性能，并确定用于机器翻译有用的单语数据的最小 OCR 质量水平是多少。

Feb, 2022

bbOCR：一个用于孟加拉文档的开源多领域 OCR 处理流程

本文介绍了 Bengali.AI-BRACU-OCR（bbOCR）：一种开源可扩展的文档光学字符识别系统，可将孟加拉语文档重构为结构化的可搜索的数字化格式，并提出了一种新颖的孟加拉语文本识别模型和两个合成数据集。全面的组件级和系统级评估结果表明，我们提出的解决方案优于当前最先进的孟加拉语 OCR 系统。

Aug, 2023

尼泊尔语和孟加拉语的光学文本识别：基于 Transformer 的方法

该研究使用编码器 - 解码器转换器针对 OCR 系统的研究和发展，以低资源语言（如孟加拉语和尼泊尔语）为例，通过对手写和打印的光学文本图像的集合进行评估，结果表明该技术与当前方法相符，并在孟加拉语和尼泊尔语的文本识别中取得了高精度，从而为东南亚地区的语言学研究打开了先机。

Apr, 2024

清洗珠：基于 Google OCR 藏文手稿的神经拼写校正模型

本篇论文介绍了一种使用 OCR 技术对西藏手稿进行数字化处理并采用神经拼写纠正模型进行自动纠正噪声输出的方法，通过 Transformer + 置信度得分机制，证明该方法比 Transformer，LSTM-2-LSTM 和 GRU-2-GRU 架构更为优越，为人文社科领域研究提供了方便。

Apr, 2023

TransDocs：基于光学字符识别和逐字翻译的翻译工具

本研究旨在提高 OCR 质量，通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译，并在英语到西班牙语翻译中显示了深度学习模型的比较研究，将终端到终端的性能用 BLEU-4 评分表达，旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。

Apr, 2023