Aug, 2023

通过后处理模型提高 OCR 性能:采用字形嵌入进行改进的校正

TL;DR探讨后期OCR模型的潜力,以克服OCR模型的局限性,并研究将字形嵌入应用于后期OCR纠错性能的影响。研究通过使用CharBERT和独特的嵌入技术将OCR输出进行嵌入,捕捉字符的视觉特征。研究发现后期OCR纠错有效地解决了次优OCR模型的缺陷,并且字形嵌入使模型能够取得优异的结果,包括纠正单词的能力。