Jun, 2023

听声辨字:音频导向文本识别

TL;DR本文提出了一种基于概率音频解码器来实现场景文本识别的方法,可以解决现有方法中存在的增加、删除或替换等编辑错误,并在12个现有的规则、不规则、遮挡数据集上对其进行了实验证明;此外,该方法具有较高的泛化性,可以应用于识别非英语文本、未知词汇和口音文本等更加复杂的场景。