提升后OCR纠错：合成数据的比较研究

Aug, 2024

提升后OCR纠错：合成数据的比较研究

Advancing Post-OCR Correction: A Comparative Study of Synthetic Data

Shuhao Guan, Derek Greene

TL;DR本研究解决了后OCR纠错中合成数据应用的问题，提出了一种新算法，利用计算机视觉特征检测算法计算字形相似性以构建合成数据。研究表明，该算法能在低资源语言中显著降低字符错误率，且与传统方法相比，合成数据生成方法具有明显优势。

Abstract

This paper explores the application of Synthetic Data in the post-OCR domain on multiple fronts by conducting experiments to assess the impact of data volume, augmentation, and Synthetic Data generation methods o

发现论文，激发创造

利用印刻梵文的OCR进行后OCR文本校正

针对罗马化梵文文本数字化的后OCR文本纠正方法，使用其他罗马字母语言的OCR模型进行训练，通过合成数据生成来训练模型，并使用一种复制机制来提高字符识别率。实验结果表明，该模型在解决单调序列-序列任务方面比当前最先进的模型结果提高了7.69%，能够有效地减少OCR产生的错误。此外，该模型的预测结果可被人类更快地理解和改进。

Sep, 2018

从过去到未来：一种全自动的 NMT 和词嵌入方法，用于 OCR 后校正

文章介绍了一种全自动无监督方式，通过提取平行数据进行基于字符序列的序列到序列神经机器翻译模型（NMT）的训练，以进行OCR错误更正，解决历史语料库中OCR错误的问题。

Oct, 2019

针对濒危语言文本的OCR后校正

针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况，本文提出了一种从不可读的文本数据中提取文本的方法，具体而言，在三种极度濒危的语言中创建了一个基准数据集，并针对数据不足的 OCR 研究有效性做了系统分析，开发了一种针对数据不足的 OCR 后校正方法，平均可将识别错误率降低34％。

Nov, 2020

OCR 提升低资源语言机器翻译

研究低资源语言和脚本的OCR系统表现。引入OCR4MT基准测试，并使用真实和合成数据进行了丰富，以评估最先进的OCR系统，分析最常见的错误。表明OCR单语数据是一种有价值的资源，可以在回译中提高机器翻译模型的性能。通过消融研究来调查OCR误差如何影响机器翻译性能，并确定用于机器翻译有用的单语数据的最小OCR质量水平是多少。

Feb, 2022

借助基于Glyph条件去噪扩散概率模型生成的训练样本改进手写OCR

提出一种DDPM概率模型用于生成手写体图像样本，并引入渐进式数据过滤策略，可将OCR模型在IAM基准任务上的错误率相对降低45%。

May, 2023

通过后处理模型提高 OCR 性能：采用字形嵌入进行改进的校正

探讨后期OCR模型的潜力，以克服OCR模型的局限性，并研究将字形嵌入应用于后期OCR纠错性能的影响。研究通过使用CharBERT和独特的嵌入技术将OCR输出进行嵌入，捕捉字符的视觉特征。研究发现后期OCR纠错有效地解决了次优OCR模型的缺陷，并且字形嵌入使模型能够取得优异的结果，包括纠正单词的能力。

Aug, 2023

为西里尔手写文字的OCR后修正生成数据

该论文介绍了一种针对手写西里尔文文本的后光学字符识别校正（POC）的新方法，该方法利用Bézier曲线生成引擎生成高度逼真的手写文本，并应用手写文本识别模型识别OCR错误，从而进行校正。

Nov, 2023

推进生成模型评估：OCR系统中逼真图像合成和比较的新算法

本研究提出了一种新颖的算法，主要针对生成模型中合成图像的真实性进行客观评估。该算法通过改进Fréchet Inception Distance（FID）得分，显著提高了评估方法的精确性，特别针对生成和评估阿拉伯手写数字的真实图像的挑战。我们的算法为此领域的OCR的发展奠定了基础，并为高质量合成图像的生成和评估设立了新的标准，从而不仅可以比较不同的生成模型，还为它们的设计和输出提供改进的途径。

Feb, 2024

推进后OCR修正：合成数据的比较研究

本研究探讨了合成数据在后OCR领域的应用，解决了数据量、增强和合成数据生成方法对模型性能的影响等问题。我们提出了一种新算法，利用计算机视觉特征检测算法计算字形相似性，以构建后OCR合成数据。实验结果表明，ByT5等模型能够显著降低字符错误率（CER），尤其是在低资源语言中，所提合成数据生成方法优于传统方法。

Aug, 2024

混乱文本：利用合成数据训练语言模型以纠正OCR错误

本研究针对数字历史档案中的OCR错误进行修正，提升其可用性和价值。论文提出了一种名为上下文利用OCR纠正（CLOCR-C）的新方法，通过使用合成数据进行语言模型的微调，显著提高了纠正OCR错误的能力，测试结果显示字符错误率降低了55%，单词错误率降低了32%。

Sep, 2024