将场景文本识别器的性能极限推至无需人工注释

CVPRApr, 2022

将场景文本识别器的性能极限推至无需人工注释

Pushing the Performance Limit of Scene Text Recognizer without Human Annotation

Caiyuan Zheng, Hui Li, Seon-Min Rhee, Seungju Han, Jae-Joon Han...

TL;DR本文介绍了一种利用合成数据和大量真实未标记图像的半监督框架来提高场景文本识别模型性能的方法。该框架基于鲁棒的一致性正则化，有效地解决了合成和真实图像之间的域不一致性问题，并在多项实验中显示出稳定性和准确性，同时提高了场景文本识别模型达到了最新的最优结果，是首个成功应用一致性正则化框架于场景文本识别的方法。

Abstract

scene text recognition (STR) attracts much attention over the years because of its wide application. Most methods train STR model in a fully supervised manner which requires large amounts of labeled data. Although synth

scene text recognition semi-supervised learning consistency regularization synthetic data real unlabeled images

发现论文，激发创造

半监督文本识别的连续视觉和语义一致性

本文提出了一种新的半监督学习方法来进行场景文本识别（STR），该方法从视觉和语义两个方面融合了单词级一致性正则化，通过使用最短路径对齐模块以及采用强化学习框架来优化嵌入空间中预测字符串的语义相似性，实验结果表明该方法在多个标准和具有挑战性的 STR 基准测试中优于现有的半监督 STR 方法。

Feb, 2024

重访场景文本识别：基于数据的视角

本文从数据导向的角度重新评估场景文字识别（STR）。作者重新审视了 STR 中六个常用基准，并观察到性能饱和的趋势，通过 13 个代表性模型，只有 2.91％的基准图像不能被准确识别。然而，作者认为这主要是由于常见基准的挑战程度较低，从而掩盖了 STR 所面临的潜在问题。为了评估 STR 模型在更复杂的真实场景中的表现，作者整理了一个大规模的真实 STR 数据集 Union14M，包括 400 万张带标签图像和 1000 万张未标记图像。实验证明 13 个模型在 400 万张有标签图像上只能达到 66.53％的平均准确率，表明 STR 在真实场景中仍面临许多挑战。通过分析这些模型的错误模式，作者确定了 STR 领域的七个难题，并构建了一个以挑战为驱动的基准，包括八个独立子集，以促进该领域的进一步发展。作者的探索表明，STR 远未解决，并且利用数据可能是一个有希望的解决方案。在这方面，作者发现通过自监督预训练利用 1000 万个未标记图像可以显著提高 STR 模型在真实场景中的鲁棒性，并取得了最先进的性能。

Jul, 2023

仅使用真实数据集进行场景文本识别会发生什么？朝着少标注的场景文本识别

该研究表明，使用真实标注的数据可以训练文字识别模型，并提出数据增强和半自监督方法来进一步提高性能。

Mar, 2021

场景文本识别的数据增强

该论文使用 STRAug 增强模型，包含 36 个针对场景文本图像属性的图像增强函数，有效地提高了模型对正常和不规则测试数据集的准确度。

Aug, 2021

场景文本识别模型比较所存在的问题：数据集与模型分析

本文提出了一种四阶段的场景文本识别模型框架，通过对模型组件的模块化分析，解决了训练和评估数据集的不一致性导致的性能差异问题，为现有模块的深入评估和探索提供了可能。

Apr, 2019

AutoSTR: 场景文本识别高效骨干网络搜索

本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能，实验表明，通过搜索数据依赖的骨干，AutoSTR 可以在标准基准测试中胜过最先进的方法，且 FLOPS 和模型参数更少。

Mar, 2020

多模态上下文学习使自适应场景文本识别器

Scene text recognition (STR) in the wild faces challenges due to domain variations, font diversity, shape deformations, etc. Recent studies show that large language models (LLMs) can learn from a few demonstration examples using In-Context Learning (ICL). However, applying LLMs as a text recognizer is resource-consuming. To address this, the paper introduces E$^2$STR, a STR model trained with context-rich scene text sequences, demonstrating effective ICL capabilities with a regular-sized model and outperforming fine-tuned approaches.

Nov, 2023

视觉语义提高了场景文本识别中的文本推理水平

该研究提出了一种基于图卷积网络的文本推理（GTR）方法并将其应用于场景文本识别中，该方法可以利用像素之间的空间关联来提高文本识别的性能，并在六个具有挑战性的基准测试中获得最新的最佳结果。

Dec, 2021

使用置换自回归序列模型的场景文本识别

PARSeq 使用 Permutation Language Modeling 学习了一组共享权重的内部 AR 语言模型的集合，实现了无上下文的非 AR 和有上下文的 AR 推理以及使用双向上下文的迭代细化，使用注意力机制进行文本识别，取得了在 STR 基准测试中的最新成果，并在一些具有挑战性的数据集上建立了新的 SOTA 结果。

Jul, 2022

多模态半监督学习文本识别

该文章提出了一种半监督的多模态文本识别方法（SemiMTR），通过使用自监督学习和监督学习相结合的单一阶段，将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调，同时在每个模态单独地应用连续性正则化方法进行训练，取得了在多个场景文本识别基准测试上的最新成果。

May, 2022