Sep, 2024

混乱文本:利用合成数据训练语言模型以纠正OCR错误

TL;DR本研究针对数字历史档案中的OCR错误进行修正,提升其可用性和价值。论文提出了一种名为上下文利用OCR纠正(CLOCR-C)的新方法,通过使用合成数据进行语言模型的微调,显著提高了纠正OCR错误的能力,测试结果显示字符错误率降低了55%,单词错误率降低了32%。