Aug, 2023

使用自定义词汇的 OCR 语言模型

TL;DR这篇论文介绍了一种算法,能够在 OCR 系统中在运行时高效生成和附加特定领域的基于单词的语言模型,并且介绍了一种改进的 CTC 束搜索解码器,有效地使得假设能够基于可能的未来词汇完成保持竞争,从而显著降低了识别专业领域材料时的词错误率。