多层次学习融合的场景文本识别预测

ECCVJul, 2023

多层次学习融合的场景文本识别预测

Multi-Granularity Prediction with Learnable Fusion for Scene Text Recognition

Cheng Da, Peng Wang, Cong Yao

TL;DR通过结合语言知识和视觉模型，本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法，用于场景文本识别，取得了优异的识别结果。

Abstract

Due to the enormous technical challenges and wide range of applications, scene text recognition (STR) has been an active research topic in computer vision for years. To tackle this tough problem, numerous innovative methods have been successively proposed, and incorporating

scene text recognition linguistic knowledge vision transformer multi-granularity prediction mgp-str algorithm

发现论文，激发创造

场景文本识别的多粒度预测

本文旨在解决场景文字识别中的挑战性问题，通过引入 Vision Transformer，构建了一个概念简单而强大的模型，同时通过提出一种多粒度预测策略，将语言模态的信息融合到模型中，从而将每个子词表示与常规字符表示结合起来，使 STR 性能得到进一步提升。最终该算法在标准基准测试中获得了 93.35% 的平均识别准确率。

Sep, 2022

视觉语义提高了场景文本识别中的文本推理水平

该研究提出了一种基于图卷积网络的文本推理（GTR）方法并将其应用于场景文本识别中，该方法可以利用像素之间的空间关联来提高文本识别的性能，并在六个具有挑战性的基准测试中获得最新的最佳结果。

Dec, 2021

用于快速高效场景文本识别的 Vision Transformer

本文提出 ViTSTR 作为一种简单的单阶段模型架构的 STR，其基于一种计算和参数高效的视觉变换器（ViT），ViTSTR 在以往的基准测试方法中取得了具有竞争力的准确率 82.6％（具有数据增强时为 84.2％），可获得 2.4 倍的加速比，只使用 43.4％的参数数量和 42.2％的 FLOPS。

May, 2021

语境增强：迈向高效准确的场景文本识别

提出了一种基于 $ extbf {LVP}$ 的语言感知视觉模型，通过级联式优化和语言信息挖掘解决了基于纯视觉的识别模型在注意力漂移和部分视觉缺失情况下识别率低的问题，并在保持低复杂度的同时达到了最佳性能。

May, 2023

指令引导的场景文本识别

多模型，场景文本识别，指导学习，跨模态学习，文本识别问题。

Jan, 2024

重访场景文本识别：基于数据的视角

本文从数据导向的角度重新评估场景文字识别（STR）。作者重新审视了 STR 中六个常用基准，并观察到性能饱和的趋势，通过 13 个代表性模型，只有 2.91％的基准图像不能被准确识别。然而，作者认为这主要是由于常见基准的挑战程度较低，从而掩盖了 STR 所面临的潜在问题。为了评估 STR 模型在更复杂的真实场景中的表现，作者整理了一个大规模的真实 STR 数据集 Union14M，包括 400 万张带标签图像和 1000 万张未标记图像。实验证明 13 个模型在 400 万张有标签图像上只能达到 66.53％的平均准确率，表明 STR 在真实场景中仍面临许多挑战。通过分析这些模型的错误模式，作者确定了 STR 领域的七个难题，并构建了一个以挑战为驱动的基准，包括八个独立子集，以促进该领域的进一步发展。作者的探索表明，STR 远未解决，并且利用数据可能是一个有希望的解决方案。在这方面，作者发现通过自监督预训练利用 1000 万个未标记图像可以显著提高 STR 模型在真实场景中的鲁棒性，并取得了最先进的性能。

Jul, 2023

多模态上下文学习使自适应场景文本识别器

Scene text recognition (STR) in the wild faces challenges due to domain variations, font diversity, shape deformations, etc. Recent studies show that large language models (LLMs) can learn from a few demonstration examples using In-Context Learning (ICL). However, applying LLMs as a text recognizer is resource-consuming. To address this, the paper introduces E$^2$STR, a STR model trained with context-rich scene text sequences, demonstrating effective ICL capabilities with a regular-sized model and outperforming fine-tuned approaches.

Nov, 2023

CLIP4STR: 使用预训练视觉语言模型的场景文本识别的简单基线

介绍了 CLIP4STR，一种基于 CLIP 的简单而有效的场景文字识别方法，通过图像和文本编码器构建，具有双预测和精炼解码机制。实验表明，该方法在 11 个 STR 基准测试中达到了最新的最佳性能。

May, 2023

基于几何感知的高效文本识别

本文介绍用于场景文本识别的深度学习架构 GeoTRNet 的概念、理论、实现及实验结果，该架构专用于处理常规场景文本，只使用几何特征识别图像中的数字，具有优异的模型可部署性、数据隐私性、模型可靠性，同时具有最小化模型权重、更短的推理时间等优势。

Feb, 2023

使用单个视觉模型进行场景文本识别

本研究提出一种基于补丁式图像记号化框架的单一视觉模型，用于场景文本识别，其通过组成部分级别的混合、合并和 / 或组合，实现全局和局部混合块，以感知字符之间和字符内部的模式，从而通过简单的线性预测识别字符。实验结果表明，在英语和中文场景文本识别任务上，SVTR-L（大型）实现了高竞争准确性，在中文上大幅优于现有的方法，在代码实现方面表现出更快的速度。

Apr, 2022