VIPTR：一种用于快速高效的场景文本识别的可置换视觉特征提取器

Jan, 2024

VIPTR：一种用于快速高效的场景文本识别的可置换视觉特征提取器

VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text Recognition

Xianfu Cheng, Weixiao Zhou, Xiang Li, Xiaoming Chen, Jian Yang...

TL;DR本研究提出了一种 VIPTR（VIsion Permutable extractor for fast and efficient scene Text Recognition）方法，它利用具有金字塔结构的视觉语义提取器以及多个自注意层，避免了传统序列解码器的依赖，从而实现了在场景文本识别领域高性能和快速推理速度之间的卓越平衡。在多个标准数据集上的大量实验结果验证了 VIPTR 的卓越优势，在中英文场景文本识别方面取得了领先位置，同时 VIPTR-T（Tiny）在保持与其他轻量级模型相媲美的准确性的基础上，实现了最先进的推理速度，而 VIPTR-L（Large）在保持较低参数和良好推理速度的同时，实现了更高的识别准确性。本研究提出的方法为场景文本识别挑战提供了一个引人注目的解决方案，将高准确性和高效性相结合，极大地促进了对快速可靠文本识别的现实应用。

Abstract

scene text recognition (STR) is a challenging task that involves recognizing text within images of natural scenes. Although current state-of-the-art models for STR exhibit high performance, they typically suffer from low inference efficiency due to their reliance on hybrid architecture

scene text recognition viptr inference efficiency visual-semantic extractor rapid inference speeds

发现论文，激发创造

用于快速高效场景文本识别的 Vision Transformer

本文提出 ViTSTR 作为一种简单的单阶段模型架构的 STR，其基于一种计算和参数高效的视觉变换器（ViT），ViTSTR 在以往的基准测试方法中取得了具有竞争力的准确率 82.6％（具有数据增强时为 84.2％），可获得 2.4 倍的加速比，只使用 43.4％的参数数量和 42.2％的 FLOPS。

May, 2021

使用单个视觉模型进行场景文本识别

本研究提出一种基于补丁式图像记号化框架的单一视觉模型，用于场景文本识别，其通过组成部分级别的混合、合并和 / 或组合，实现全局和局部混合块，以感知字符之间和字符内部的模式，从而通过简单的线性预测识别字符。实验结果表明，在英语和中文场景文本识别任务上，SVTR-L（大型）实现了高竞争准确性，在中文上大幅优于现有的方法，在代码实现方面表现出更快的速度。

Apr, 2022

ViTEraser: 利用视觉 Transformer 和 SegMIM 预训练技术进行场景文本擦除

本研究提出了一种基于 ViTs 的简单而有效的文本擦除器，在编码器 - 解码器框架内集成文本定位和修复，通过 SegMIM 方法进行端到端预训练，实现了在场景文本去除方面的最先进性能提升，表明了 ViTs 在此领域的广泛应用前景。

Jun, 2023

CLIP4STR: 使用预训练视觉语言模型的场景文本识别的简单基线

介绍了 CLIP4STR，一种基于 CLIP 的简单而有效的场景文字识别方法，通过图像和文本编码器构建，具有双预测和精炼解码机制。实验表明，该方法在 11 个 STR 基准测试中达到了最新的最佳性能。

May, 2023

集成专家的纯 Transformer 用于场景文本识别

本文提出了使用 tranformer-only 模型作为识别场景文字的基线，并且利用 Pure Transformer with Integrated Experts 优化了解码过程，实现了对多尺度图片的处理和原始字符顺序的识别，并在七个基准测试中超越了 20 个最先进的方法，达到了最先进的效果。

Nov, 2022

场景文本识别的多粒度预测

本文旨在解决场景文字识别中的挑战性问题，通过引入 Vision Transformer，构建了一个概念简单而强大的模型，同时通过提出一种多粒度预测策略，将语言模态的信息融合到模型中，从而将每个子词表示与常规字符表示结合起来，使 STR 性能得到进一步提升。最终该算法在标准基准测试中获得了 93.35% 的平均识别准确率。

Sep, 2022

AutoSTR: 场景文本识别高效骨干网络搜索

本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能，实验表明，通过搜索数据依赖的骨干，AutoSTR 可以在标准基准测试中胜过最先进的方法，且 FLOPS 和模型参数更少。

Mar, 2020

视觉语义提高了场景文本识别中的文本推理水平

该研究提出了一种基于图卷积网络的文本推理（GTR）方法并将其应用于场景文本识别中，该方法可以利用像素之间的空间关联来提高文本识别的性能，并在六个具有挑战性的基准测试中获得最新的最佳结果。

Dec, 2021

多层次学习融合的场景文本识别预测

通过结合语言知识和视觉模型，本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法，用于场景文本识别，取得了优异的识别结果。

Jul, 2023

基于文本相关图像修补选择的高效视觉与语言预训练

TRIPS 是一种高效的 VLP 方法，通过在视觉主干中引入一个文本导向的补丁选择层，以渐进的方式减少视觉序列，从而加速训练和推理过程，并通过动态计算文本相关的视觉注意力来识别注意力图像令牌，以无缝融合不注意的令牌。TRIPS 不添加额外参数且适用于大多数基于 ViT 的 VLP 模型。将 TRIPS 整合到三种代表性的 VLP 模型中，并在五个广泛使用的多模式基准数据集上进行了详尽的实验研究。实验结果表明，TRIPS 能够提供 40% 的加速效果，同时在下游任务上保持有竞争力或更好的性能。

Jan, 2024