ACLFeb, 2022

OCR 提升低资源语言机器翻译

TL;DR研究低资源语言和脚本的 OCR 系统表现。引入 OCR4MT 基准测试,并使用真实和合成数据进行了丰富,以评估最先进的 OCR 系统,分析最常见的错误。表明 OCR 单语数据是一种有价值的资源,可以在回译中提高机器翻译模型的性能。通过消融研究来调查 OCR 误差如何影响机器翻译性能,并确定用于机器翻译有用的单语数据的最小 OCR 质量水平是多少。