Apr, 2012

基于 Google Web 1T 5-Gram 数据集的 OCR 上下文相关错误纠正

TL;DR本文提出了一种后处理 OCR 上下文感应错误纠正方法,使用谷歌 Web 1T 5-gram 数据集作为单词的字典进行拼写检查 OCR 文本。该方法的核心是三种算法的组合:错误检测、候选拼写生成和错误更正算法。实验表明,该方法在不同语言的扫描图像中显著提高了 OCR 错误更正率。未来的发展将支持并行和分布式计算架构。