集成专家的纯 Transformer 用于场景文本识别

ECCVNov, 2022

集成专家的纯 Transformer 用于场景文本识别

Pure Transformer with Integrated Experts for Scene Text Recognition

Yew Lee Tan, Adams Wai-kin Kong, Jung-Jae Kim

TL;DR本文提出了使用 tranformer-only 模型作为识别场景文字的基线，并且利用 Pure Transformer with Integrated Experts 优化了解码过程，实现了对多尺度图片的处理和原始字符顺序的识别，并在七个基准测试中超越了 20 个最先进的方法，达到了最先进的效果。

Abstract

scene text recognition (STR) involves the task of reading text in cropped images of natural scenes. Conventional models in STR employ convolutional neural network (CNN) followed by recurrent neural network in an encoder-decoder framework. In recent times, the →

scene text recognition transformer pure transformer with integrated experts vit state-of-the-art

发现论文，激发创造

用于快速高效场景文本识别的 Vision Transformer

本文提出 ViTSTR 作为一种简单的单阶段模型架构的 STR，其基于一种计算和参数高效的视觉变换器（ViT），ViTSTR 在以往的基准测试方法中取得了具有竞争力的准确率 82.6％（具有数据增强时为 84.2％），可获得 2.4 倍的加速比，只使用 43.4％的参数数量和 42.2％的 FLOPS。

May, 2021

ViTEraser: 利用视觉 Transformer 和 SegMIM 预训练技术进行场景文本擦除

本研究提出了一种基于 ViTs 的简单而有效的文本擦除器，在编码器 - 解码器框架内集成文本定位和修复，通过 SegMIM 方法进行端到端预训练，实现了在场景文本去除方面的最先进性能提升，表明了 ViTs 在此领域的广泛应用前景。

Jun, 2023

VIPTR：一种用于快速高效的场景文本识别的可置换视觉特征提取器

本研究提出了一种 VIPTR（VIsion Permutable extractor for fast and efficient scene Text Recognition）方法，它利用具有金字塔结构的视觉语义提取器以及多个自注意层，避免了传统序列解码器的依赖，从而实现了在场景文本识别领域高性能和快速推理速度之间的卓越平衡。在多个标准数据集上的大量实验结果验证了 VIPTR 的卓越优势，在中英文场景文本识别方面取得了领先位置，同时 VIPTR-T（Tiny）在保持与其他轻量级模型相媲美的准确性的基础上，实现了最先进的推理速度，而 VIPTR-L（Large）在保持较低参数和良好推理速度的同时，实现了更高的识别准确性。本研究提出的方法为场景文本识别挑战提供了一个引人注目的解决方案，将高准确性和高效性相结合，极大地促进了对快速可靠文本识别的现实应用。

Jan, 2024

一张图像胜过 16*16 个单词：规模下的图像识别变形金刚

本文研究使用 Transformer 代替 CNN 进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

场景文本识别的多粒度预测

本文旨在解决场景文字识别中的挑战性问题，通过引入 Vision Transformer，构建了一个概念简单而强大的模型，同时通过提出一种多粒度预测策略，将语言模态的信息融合到模型中，从而将每个子词表示与常规字符表示结合起来，使 STR 性能得到进一步提升。最终该算法在标准基准测试中获得了 93.35% 的平均识别准确率。

Sep, 2022

单解码器双向场景文本识别

介绍了一种使用单个解码器进行双向文本解码的新型双向美术场景文本识别方法 Bi-STET，该方法比使用两个独立解码器进行双向解码的方法更高效，并在所有 STR 基准测试中实现或超越最先进的方法。

Dec, 2019

基于 Transformer 的场景文本识别

本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法，只需要空间注意力而不需要矫正图像，仅使用卷积特征图作为单词嵌入输入到 transformer 中，并在大规模实验中取得了显著的优越性能。

Mar, 2020

基于 Transformer 的端到端图像压缩和分析

本文提出了一种基于 Transformer 的端到端图像压缩和分析模型，实现云端图像分类应用，并通过两步训练策略解决了率失真精度优化问题。实验结果表明，该模型在图像压缩和分类任务中均具有有效性。

Dec, 2021

将卷积结构融入视觉 Transformer

本论文提出了一种结合卷积神经网络和 Transformer 的新型算法 Convolution-enhanced image Transformer (CeiT)，在 ImageNet 和七个下游任务中实现了与先前 Transformer 和目前最先进的卷积神经网络相当的效果，而无需大量训练数据和额外的卷积神经网络教师，同时具有更好的收敛性和更低的训练成本。

Mar, 2021

使用增强视觉 Transformer 进行图像重建

本文提出了一个基于 Vision Transformer (ViT) 的图像重构框架，利用 4 种优化技术和生成对抗网络（GANs）启发的对抗性损失函数，用于图像去噪和修复，实验表明该框架在结构相似性（SSIM）方面比 U-Net 模型高出超过 3.5％，对于这两个任务，提议的增强算法进一步展示了超过基准的 extasciitilde5％SSIM 的改进。

Jul, 2023