EMNLPNov, 2020

针对濒危语言文本的 OCR 后校正

TL;DR针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况,本文提出了一种从不可读的文本数据中提取文本的方法,具体而言,在三种极度濒危的语言中创建了一个基准数据集,并针对数据不足的 OCR 研究有效性做了系统分析,开发了一种针对数据不足的 OCR 后校正方法,平均可将识别错误率降低 34%。