选择性场景文本去除
使用相同的标准化训练 / 评估数据集对多种先前的方法进行评估,提出了一种简单而极其有效的门控注意力(GA)和感兴趣区域生成(RoIG)方法,证明了这种方法在几乎所有指标上都明显优于现有的最先进方法,速度更快,参数更少。
Oct, 2022
本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能,实验表明,通过搜索数据依赖的骨干,AutoSTR 可以在标准基准测试中胜过最先进的方法,且 FLOPS 和模型参数更少。
Mar, 2020
本文从数据导向的角度重新评估场景文字识别(STR)。作者重新审视了 STR 中六个常用基准,并观察到性能饱和的趋势,通过 13 个代表性模型,只有 2.91%的基准图像不能被准确识别。然而,作者认为这主要是由于常见基准的挑战程度较低,从而掩盖了 STR 所面临的潜在问题。为了评估 STR 模型在更复杂的真实场景中的表现,作者整理了一个大规模的真实 STR 数据集 Union14M,包括 400 万张带标签图像和 1000 万张未标记图像。实验证明 13 个模型在 400 万张有标签图像上只能达到 66.53%的平均准确率,表明 STR 在真实场景中仍面临许多挑战。通过分析这些模型的错误模式,作者确定了 STR 领域的七个难题,并构建了一个以挑战为驱动的基准,包括八个独立子集,以促进该领域的进一步发展。作者的探索表明,STR 远未解决,并且利用数据可能是一个有希望的解决方案。在这方面,作者发现通过自监督预训练利用 1000 万个未标记图像可以显著提高 STR 模型在真实场景中的鲁棒性,并取得了最先进的性能。
Jul, 2023
本文提出了一种名为 Selective Context ATtentional Text Recognizer(SCATTER)的新型场景文本识别(STR)架构,利用一种叠加块结构的中间监督方式进行训练,成功地训练出深度双向 LSTM 编码器,提高了上下文依赖关系的编码。使用两步 1D 注意机制进行解码,与之前的论文相似,处理序列特征并关注序列内部关系。实验证明该方法在不规则文本识别基准上的表现优于当前最先进技术平均提高了 3.7%。
Mar, 2020
介绍了一种使用单个解码器进行双向文本解码的新型双向美术场景文本识别方法 Bi-STET,该方法比使用两个独立解码器进行双向解码的方法更高效,并在所有 STR 基准测试中实现或超越最先进的方法。
Dec, 2019
本文介绍用于场景文本识别的深度学习架构 GeoTRNet 的概念、理论、实现及实验结果,该架构专用于处理常规场景文本,只使用几何特征识别图像中的数字,具有优异的模型可部署性、数据隐私性、模型可靠性,同时具有最小化模型权重、更短的推理时间等优势。
Feb, 2023
本文介绍了一种利用合成数据和大量真实未标记图像的半监督框架来提高场景文本识别模型性能的方法。该框架基于鲁棒的一致性正则化,有效地解决了合成和真实图像之间的域不一致性问题,并在多项实验中显示出稳定性和准确性,同时提高了场景文本识别模型达到了最新的最优结果,是首个成功应用一致性正则化框架于场景文本识别的方法。
Apr, 2022