场景文本识别模型比较所存在的问题:数据集与模型分析
本文从数据导向的角度重新评估场景文字识别(STR)。作者重新审视了 STR 中六个常用基准,并观察到性能饱和的趋势,通过 13 个代表性模型,只有 2.91%的基准图像不能被准确识别。然而,作者认为这主要是由于常见基准的挑战程度较低,从而掩盖了 STR 所面临的潜在问题。为了评估 STR 模型在更复杂的真实场景中的表现,作者整理了一个大规模的真实 STR 数据集 Union14M,包括 400 万张带标签图像和 1000 万张未标记图像。实验证明 13 个模型在 400 万张有标签图像上只能达到 66.53%的平均准确率,表明 STR 在真实场景中仍面临许多挑战。通过分析这些模型的错误模式,作者确定了 STR 领域的七个难题,并构建了一个以挑战为驱动的基准,包括八个独立子集,以促进该领域的进一步发展。作者的探索表明,STR 远未解决,并且利用数据可能是一个有希望的解决方案。在这方面,作者发现通过自监督预训练利用 1000 万个未标记图像可以显著提高 STR 模型在真实场景中的鲁棒性,并取得了最先进的性能。
Jul, 2023
本文介绍了一种利用合成数据和大量真实未标记图像的半监督框架来提高场景文本识别模型性能的方法。该框架基于鲁棒的一致性正则化,有效地解决了合成和真实图像之间的域不一致性问题,并在多项实验中显示出稳定性和准确性,同时提高了场景文本识别模型达到了最新的最优结果,是首个成功应用一致性正则化框架于场景文本识别的方法。
Apr, 2022
该论文提出了一种名为 DiffusionSTR 的扩散模型场景文字识别框架,将场景文字识别任务视为图像上的文本 - 文本转换,实现了竞争性的准确性。
Jun, 2023
本文提出了一种新的半监督学习方法来进行场景文本识别(STR),该方法从视觉和语义两个方面融合了单词级一致性正则化,通过使用最短路径对齐模块以及采用强化学习框架来优化嵌入空间中预测字符串的语义相似性,实验结果表明该方法在多个标准和具有挑战性的 STR 基准测试中优于现有的半监督 STR 方法。
Feb, 2024
我们提出了一种通过判断图像和文本是否匹配来提高场景文本识别任务准确性的方法。与之前的研究关注于从输入图像生成识别结果不同,我们的方法还考虑了模型的误识别结果,以了解其错误倾向,从而改进了文本识别流程。该方法通过对模型可能误识别的数据进行预测,提供明确的反馈信息,从而提高了文本识别的准确性。公开可用数据集上的实验结果表明,我们提出的方法在场景文本识别方面超过了基线和最先进的方法。
Apr, 2024
本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能,实验表明,通过搜索数据依赖的骨干,AutoSTR 可以在标准基准测试中胜过最先进的方法,且 FLOPS 和模型参数更少。
Mar, 2020
通过结合语言知识和视觉模型,本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法,用于场景文本识别,取得了优异的识别结果。
Jul, 2023
该研究提出了一种基于图卷积网络的文本推理(GTR)方法并将其应用于场景文本识别中,该方法可以利用像素之间的空间关联来提高文本识别的性能,并在六个具有挑战性的基准测试中获得最新的最佳结果。
Dec, 2021