该研究提出了一种基于图卷积网络的文本推理(GTR)方法并将其应用于场景文本识别中,该方法可以利用像素之间的空间关联来提高文本识别的性能,并在六个具有挑战性的基准测试中获得最新的最佳结果。
Dec, 2021
本文从数据导向的角度重新评估场景文字识别(STR)。作者重新审视了 STR 中六个常用基准,并观察到性能饱和的趋势,通过 13 个代表性模型,只有 2.91%的基准图像不能被准确识别。然而,作者认为这主要是由于常见基准的挑战程度较低,从而掩盖了 STR 所面临的潜在问题。为了评估 STR 模型在更复杂的真实场景中的表现,作者整理了一个大规模的真实 STR 数据集 Union14M,包括 400 万张带标签图像和 1000 万张未标记图像。实验证明 13 个模型在 400 万张有标签图像上只能达到 66.53%的平均准确率,表明 STR 在真实场景中仍面临许多挑战。通过分析这些模型的错误模式,作者确定了 STR 领域的七个难题,并构建了一个以挑战为驱动的基准,包括八个独立子集,以促进该领域的进一步发展。作者的探索表明,STR 远未解决,并且利用数据可能是一个有希望的解决方案。在这方面,作者发现通过自监督预训练利用 1000 万个未标记图像可以显著提高 STR 模型在真实场景中的鲁棒性,并取得了最先进的性能。
Jul, 2023
使用相同的标准化训练 / 评估数据集对多种先前的方法进行评估,提出了一种简单而极其有效的门控注意力(GA)和感兴趣区域生成(RoIG)方法,证明了这种方法在几乎所有指标上都明显优于现有的最先进方法,速度更快,参数更少。
Oct, 2022
本研究提出一种基于补丁式图像记号化框架的单一视觉模型,用于场景文本识别,其通过组成部分级别的混合、合并和 / 或组合,实现全局和局部混合块,以感知字符之间和字符内部的模式,从而通过简单的线性预测识别字符。实验结果表明,在英语和中文场景文本识别任务上,SVTR-L(大型)实现了高竞争准确性,在中文上大幅优于现有的方法,在代码实现方面表现出更快的速度。
Apr, 2022
本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法,只需要空间注意力而不需要矫正图像,仅使用卷积特征图作为单词嵌入输入到 transformer 中,并在大规模实验中取得了显著的优越性能。
Mar, 2020
该研究提出了一种名为 TextRay 的任意形状文本检测方法,采用一次性无锚点框架中的自顶向下轮廓基准几何建模和几何参数学习,能够将复杂的几何布局编码为统一的表示,并输出仅经过一个 NMS 后处理的简单多边形检测。
Aug, 2020
本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词,提出了任意形状的场景文本检测和识别系统 TextOCR,使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理,以达到新的 TextVQA 数据集上的最新性能水平。
May, 2021
本文旨在解决场景文字识别中的挑战性问题,通过引入 Vision Transformer,构建了一个概念简单而强大的模型,同时通过提出一种多粒度预测策略,将语言模态的信息融合到模型中,从而将每个子词表示与常规字符表示结合起来,使 STR 性能得到进一步提升。最终该算法在标准基准测试中获得了 93.35% 的平均识别准确率。
Sep, 2022
这篇论文提出了一种名为 SATRN 的新型体系结构,受 Transformer 启发,利用自注意机制描述场景文本图像中字符的二维空间依赖性,能够识别任意形状的文本,效果可以打败现有的 STR 模型,尤其是在 “不规则文本” 基准测试中表现得非常出色。
Oct, 2019
通过结合语言知识和视觉模型,本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法,用于场景文本识别,取得了优异的识别结果。