场景文本识别模型比较所存在的问题：数据集与模型分析

ICCVApr, 2019

场景文本识别模型比较所存在的问题：数据集与模型分析

What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han...

TL;DR本文提出了一种四阶段的场景文本识别模型框架，通过对模型组件的模块化分析，解决了训练和评估数据集的不一致性导致的性能差异问题，为现有模块的深入评估和探索提供了可能。

Abstract

Many new proposals for scene text recognition (STR) models have been introduced in recent years. While each claim to have pushed the boundary of the technology, a holistic and fair comparison has been largely missing in the field due to the inconsistent choices of training and

scene text recognition training datasets evaluation datasets str framework module-wise contributions

发现论文，激发创造

重访场景文本识别：基于数据的视角

本文从数据导向的角度重新评估场景文字识别（STR）。作者重新审视了 STR 中六个常用基准，并观察到性能饱和的趋势，通过 13 个代表性模型，只有 2.91％的基准图像不能被准确识别。然而，作者认为这主要是由于常见基准的挑战程度较低，从而掩盖了 STR 所面临的潜在问题。为了评估 STR 模型在更复杂的真实场景中的表现，作者整理了一个大规模的真实 STR 数据集 Union14M，包括 400 万张带标签图像和 1000 万张未标记图像。实验证明 13 个模型在 400 万张有标签图像上只能达到 66.53％的平均准确率，表明 STR 在真实场景中仍面临许多挑战。通过分析这些模型的错误模式，作者确定了 STR 领域的七个难题，并构建了一个以挑战为驱动的基准，包括八个独立子集，以促进该领域的进一步发展。作者的探索表明，STR 远未解决，并且利用数据可能是一个有希望的解决方案。在这方面，作者发现通过自监督预训练利用 1000 万个未标记图像可以显著提高 STR 模型在真实场景中的鲁棒性，并取得了最先进的性能。

Jul, 2023

将场景文本识别器的性能极限推至无需人工注释

本文介绍了一种利用合成数据和大量真实未标记图像的半监督框架来提高场景文本识别模型性能的方法。该框架基于鲁棒的一致性正则化，有效地解决了合成和真实图像之间的域不一致性问题，并在多项实验中显示出稳定性和准确性，同时提高了场景文本识别模型达到了最新的最优结果，是首个成功应用一致性正则化框架于场景文本识别的方法。

Apr, 2022

仅使用真实数据集进行场景文本识别会发生什么？朝着少标注的场景文本识别

该研究表明，使用真实标注的数据可以训练文字识别模型，并提出数据增强和半自监督方法来进一步提高性能。

Mar, 2021

DiffusionSTR: 场景文本识别的扩散模型

该论文提出了一种名为 DiffusionSTR 的扩散模型场景文字识别框架，将场景文字识别任务视为图像上的文本 - 文本转换，实现了竞争性的准确性。

Jun, 2023

半监督文本识别的连续视觉和语义一致性

本文提出了一种新的半监督学习方法来进行场景文本识别（STR），该方法从视觉和语义两个方面融合了单词级一致性正则化，通过使用最短路径对齐模块以及采用强化学习框架来优化嵌入空间中预测字符串的语义相似性，实验结果表明该方法在多个标准和具有挑战性的 STR 基准测试中优于现有的半监督 STR 方法。

Feb, 2024

JSTR：判断优化场景文本识别

我们提出了一种通过判断图像和文本是否匹配来提高场景文本识别任务准确性的方法。与之前的研究关注于从输入图像生成识别结果不同，我们的方法还考虑了模型的误识别结果，以了解其错误倾向，从而改进了文本识别流程。该方法通过对模型可能误识别的数据进行预测，提供明确的反馈信息，从而提高了文本识别的准确性。公开可用数据集上的实验结果表明，我们提出的方法在场景文本识别方面超过了基线和最先进的方法。

Apr, 2024

AutoSTR: 场景文本识别高效骨干网络搜索

本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能，实验表明，通过搜索数据依赖的骨干，AutoSTR 可以在标准基准测试中胜过最先进的方法，且 FLOPS 和模型参数更少。

Mar, 2020

多层次学习融合的场景文本识别预测

通过结合语言知识和视觉模型，本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法，用于场景文本识别，取得了优异的识别结果。

Jul, 2023

场景文本识别的数据增强

该论文使用 STRAug 增强模型，包含 36 个针对场景文本图像属性的图像增强函数，有效地提高了模型对正常和不规则测试数据集的准确度。

Aug, 2021

视觉语义提高了场景文本识别中的文本推理水平

该研究提出了一种基于图卷积网络的文本推理（GTR）方法并将其应用于场景文本识别中，该方法可以利用像素之间的空间关联来提高文本识别的性能，并在六个具有挑战性的基准测试中获得最新的最佳结果。

Dec, 2021