Sep, 2018

利用印刻梵文的 OCR 进行后 OCR 文本校正

TL;DR针对罗马化梵文文本数字化的后 OCR 文本纠正方法,使用其他罗马字母语言的 OCR 模型进行训练,通过合成数据生成来训练模型,并使用一种复制机制来提高字符识别率。实验结果表明,该模型在解决单调序列 - 序列任务方面比当前最先进的模型结果提高了 7.69%,能够有效地减少 OCR 产生的错误。此外,该模型的预测结果可被人类更快地理解和改进。