用于快速高效场景文本识别的 Vision Transformer

May, 2021

用于快速高效场景文本识别的 Vision Transformer

Vision Transformer for Fast and Efficient Scene Text Recognition

Rowel Atienza

TL;DR本文提出 ViTSTR 作为一种简单的单阶段模型架构的 STR，其基于一种计算和参数高效的视觉变换器（ViT），ViTSTR 在以往的基准测试方法中取得了具有竞争力的准确率 82.6％（具有数据增强时为 84.2％），可获得 2.4 倍的加速比，只使用 43.4％的参数数量和 42.2％的 FLOPS。

Abstract

scene text recognition (STR) enables computers to read text in natural scenes such as object labels, road signs and instructions. STR helps machines perform informed decisions such as what object to pick, which direction to go, and what is the next step of action. In the body of work o

scene text recognition computational efficiency vitstr accuracy data augmentation

发现论文，激发创造

VIPTR：一种用于快速高效的场景文本识别的可置换视觉特征提取器

本研究提出了一种 VIPTR（VIsion Permutable extractor for fast and efficient scene Text Recognition）方法，它利用具有金字塔结构的视觉语义提取器以及多个自注意层，避免了传统序列解码器的依赖，从而实现了在场景文本识别领域高性能和快速推理速度之间的卓越平衡。在多个标准数据集上的大量实验结果验证了 VIPTR 的卓越优势，在中英文场景文本识别方面取得了领先位置，同时 VIPTR-T（Tiny）在保持与其他轻量级模型相媲美的准确性的基础上，实现了最先进的推理速度，而 VIPTR-L（Large）在保持较低参数和良好推理速度的同时，实现了更高的识别准确性。本研究提出的方法为场景文本识别挑战提供了一个引人注目的解决方案，将高准确性和高效性相结合，极大地促进了对快速可靠文本识别的现实应用。

Jan, 2024

场景文本识别的多粒度预测

本文旨在解决场景文字识别中的挑战性问题，通过引入 Vision Transformer，构建了一个概念简单而强大的模型，同时通过提出一种多粒度预测策略，将语言模态的信息融合到模型中，从而将每个子词表示与常规字符表示结合起来，使 STR 性能得到进一步提升。最终该算法在标准基准测试中获得了 93.35% 的平均识别准确率。

Sep, 2022

集成专家的纯 Transformer 用于场景文本识别

本文提出了使用 tranformer-only 模型作为识别场景文字的基线，并且利用 Pure Transformer with Integrated Experts 优化了解码过程，实现了对多尺度图片的处理和原始字符顺序的识别，并在七个基准测试中超越了 20 个最先进的方法，达到了最先进的效果。

Nov, 2022

ViTEraser: 利用视觉 Transformer 和 SegMIM 预训练技术进行场景文本擦除

本研究提出了一种基于 ViTs 的简单而有效的文本擦除器，在编码器 - 解码器框架内集成文本定位和修复，通过 SegMIM 方法进行端到端预训练，实现了在场景文本去除方面的最先进性能提升，表明了 ViTs 在此领域的广泛应用前景。

Jun, 2023

AutoSTR: 场景文本识别高效骨干网络搜索

本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能，实验表明，通过搜索数据依赖的骨干，AutoSTR 可以在标准基准测试中胜过最先进的方法，且 FLOPS 和模型参数更少。

Mar, 2020

多层次学习融合的场景文本识别预测

通过结合语言知识和视觉模型，本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法，用于场景文本识别，取得了优异的识别结果。

Jul, 2023

使用单个视觉模型进行场景文本识别

本研究提出一种基于补丁式图像记号化框架的单一视觉模型，用于场景文本识别，其通过组成部分级别的混合、合并和 / 或组合，实现全局和局部混合块，以感知字符之间和字符内部的模式，从而通过简单的线性预测识别字符。实验结果表明，在英语和中文场景文本识别任务上，SVTR-L（大型）实现了高竞争准确性，在中文上大幅优于现有的方法，在代码实现方面表现出更快的速度。

Apr, 2022

重访场景文本识别：基于数据的视角

本文从数据导向的角度重新评估场景文字识别（STR）。作者重新审视了 STR 中六个常用基准，并观察到性能饱和的趋势，通过 13 个代表性模型，只有 2.91％的基准图像不能被准确识别。然而，作者认为这主要是由于常见基准的挑战程度较低，从而掩盖了 STR 所面临的潜在问题。为了评估 STR 模型在更复杂的真实场景中的表现，作者整理了一个大规模的真实 STR 数据集 Union14M，包括 400 万张带标签图像和 1000 万张未标记图像。实验证明 13 个模型在 400 万张有标签图像上只能达到 66.53％的平均准确率，表明 STR 在真实场景中仍面临许多挑战。通过分析这些模型的错误模式，作者确定了 STR 领域的七个难题，并构建了一个以挑战为驱动的基准，包括八个独立子集，以促进该领域的进一步发展。作者的探索表明，STR 远未解决，并且利用数据可能是一个有希望的解决方案。在这方面，作者发现通过自监督预训练利用 1000 万个未标记图像可以显著提高 STR 模型在真实场景中的鲁棒性，并取得了最先进的性能。

Jul, 2023

CLIP4STR: 使用预训练视觉语言模型的场景文本识别的简单基线

介绍了 CLIP4STR，一种基于 CLIP 的简单而有效的场景文字识别方法，通过图像和文本编码器构建，具有双预测和精炼解码机制。实验表明，该方法在 11 个 STR 基准测试中达到了最新的最佳性能。

May, 2023

场景文本识别的数据增强

该论文使用 STRAug 增强模型，包含 36 个针对场景文本图像属性的图像增强函数，有效地提高了模型对正常和不规则测试数据集的准确度。

Aug, 2021