Feb, 2024

半监督文本识别的连续视觉和语义一致性

TL;DR本文提出了一种新的半监督学习方法来进行场景文本识别(STR),该方法从视觉和语义两个方面融合了单词级一致性正则化,通过使用最短路径对齐模块以及采用强化学习框架来优化嵌入空间中预测字符串的语义相似性,实验结果表明该方法在多个标准和具有挑战性的 STR 基准测试中优于现有的半监督 STR 方法。