使用单个视觉模型进行场景文本识别

IJCAIApr, 2022

使用单个视觉模型进行场景文本识别

SVTR: Scene Text Recognition with a Single Visual Model

Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Tianlun Zheng...

TL;DR本研究提出一种基于补丁式图像记号化框架的单一视觉模型，用于场景文本识别，其通过组成部分级别的混合、合并和 / 或组合，实现全局和局部混合块，以感知字符之间和字符内部的模式，从而通过简单的线性预测识别字符。实验结果表明，在英语和中文场景文本识别任务上，SVTR-L（大型）实现了高竞争准确性，在中文上大幅优于现有的方法，在代码实现方面表现出更快的速度。

Abstract

Dominant scene text recognition models commonly contain two building blocks, a visual model for feature extraction and a sequence model for text transcription. This hybrid architecture, although accurate, is complex and less efficient. In this study, we propose a Single Visual model fo

scene text recognition patch-wise image tokenization character component hierarchical mixing merging and/or combining svtr

发现论文，激发创造

视觉语义提高了场景文本识别中的文本推理水平

该研究提出了一种基于图卷积网络的文本推理（GTR）方法并将其应用于场景文本识别中，该方法可以利用像素之间的空间关联来提高文本识别的性能，并在六个具有挑战性的基准测试中获得最新的最佳结果。

Dec, 2021

VIPTR：一种用于快速高效的场景文本识别的可置换视觉特征提取器

本研究提出了一种 VIPTR（VIsion Permutable extractor for fast and efficient scene Text Recognition）方法，它利用具有金字塔结构的视觉语义提取器以及多个自注意层，避免了传统序列解码器的依赖，从而实现了在场景文本识别领域高性能和快速推理速度之间的卓越平衡。在多个标准数据集上的大量实验结果验证了 VIPTR 的卓越优势，在中英文场景文本识别方面取得了领先位置，同时 VIPTR-T（Tiny）在保持与其他轻量级模型相媲美的准确性的基础上，实现了最先进的推理速度，而 VIPTR-L（Large）在保持较低参数和良好推理速度的同时，实现了更高的识别准确性。本研究提出的方法为场景文本识别挑战提供了一个引人注目的解决方案，将高准确性和高效性相结合，极大地促进了对快速可靠文本识别的现实应用。

Jan, 2024

用于快速高效场景文本识别的 Vision Transformer

本文提出 ViTSTR 作为一种简单的单阶段模型架构的 STR，其基于一种计算和参数高效的视觉变换器（ViT），ViTSTR 在以往的基准测试方法中取得了具有竞争力的准确率 82.6％（具有数据增强时为 84.2％），可获得 2.4 倍的加速比，只使用 43.4％的参数数量和 42.2％的 FLOPS。

May, 2021

场景文本识别的多粒度预测

本文旨在解决场景文字识别中的挑战性问题，通过引入 Vision Transformer，构建了一个概念简单而强大的模型，同时通过提出一种多粒度预测策略，将语言模态的信息融合到模型中，从而将每个子词表示与常规字符表示结合起来，使 STR 性能得到进一步提升。最终该算法在标准基准测试中获得了 93.35% 的平均识别准确率。

Sep, 2022

从二到一：一种具有视觉语言建模网络的新型场景文本识别器

本文提出一种名为 VisionLAN 的可提升文字识别速度与精度的模型，结合视觉和语言信息的 Visual Language Modeling，以直接赋予形象模型带有语言能力，从而在训练阶段引导视觉模型利用视觉文本特征以及上下文信息的语言能力进行字符特征判断，绕过视觉噪声等干扰因素。本文中的 Occlusion Scene Text 数据集通过缺失部分字符信息的数据，进一步验证了我们的模型在复杂环境下的有效性。

Aug, 2021

基于几何感知的高效文本识别

本文介绍用于场景文本识别的深度学习架构 GeoTRNet 的概念、理论、实现及实验结果，该架构专用于处理常规场景文本，只使用几何特征识别图像中的数字，具有优异的模型可部署性、数据隐私性、模型可靠性，同时具有最小化模型权重、更短的推理时间等优势。

Feb, 2023

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

多层次学习融合的场景文本识别预测

通过结合语言知识和视觉模型，本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法，用于场景文本识别，取得了优异的识别结果。

Jul, 2023

使用滑动卷积字符模型识别场景文本

本文提出了一种基于卷积特征映射中的字符模型的场景文本识别方法，可以避免基于分割的识别方法中的字符分割困难，并且可以识别未知单词，与现有方法相比具有相对较小的模型大小和优秀的性能表现。

Sep, 2017

场景文本识别的视觉语义变换器

本文提出了一种 Visual-Semantic Transformer 的模型，通过 Transformer 模块和视觉 - 语义对齐模块从视觉特征映射中提取出主要的语义信息，然后将语义信息和视觉特征序列组合成伪多域序列，进而通过交互模块增强视觉特征和语义信息之间的相互作用，从而实现文本识别。实验结果表明，该模型在包括正常 / 不规则文本识别数据集在内的七个公共基准上达到了最先进水平。

Dec, 2021