BriefGPT.xyz
Ask
alpha
关键词
post-ocr text correction
搜索结果 - 3
EMNLP
梵文 OCR 后文本校正的基准和数据集
在这项工作中,我们发布了一个后 OCR 文本校正数据集,其中包含来自 30 本不同书籍的约 218,000 个句子,共 1.5 百万个单词,涵盖了天文学、医学和数学等多个领域,其中一些可追溯到 18 个世纪。我们还发布了基于预训练 Seq2
→
PDF
2 years ago
利用印刻梵文的 OCR 进行后 OCR 文本校正
针对罗马化梵文文本数字化的后 OCR 文本纠正方法,使用其他罗马字母语言的 OCR 模型进行训练,通过合成数据生成来训练模型,并使用一种复制机制来提高字符识别率。实验结果表明,该模型在解决单调序列 - 序列任务方面比当前最先进的模型结果提高
→
PDF
6 years ago
使用字符纠错和基于特征的单词分类来进行 OCR 错误纠正
该论文探讨了使用学习分类器进行后期 OCR 文本纠错的方法。阿拉伯语实验表明,这种方法结合加权混淆矩阵和浅层语言模型,可以改进我们数据集上绝大多数的分割和识别错误,这是最常见的类型。
PDF
8 years ago
Prev
Next