ViTEraser: 利用视觉 Transformer 和 SegMIM 预训练技术进行场景文本擦除

Jun, 2023

ViTEraser: 利用视觉 Transformer 和 SegMIM 预训练技术进行场景文本擦除

ViTEraser: Harnessing the Power of Vision Transformers for Scene Text Removal with SegMIM Pretraining

Dezhi Peng, Chongyu Liu, Yuliang Liu, Lianwen Jin

TL;DR本研究提出了一种基于 ViTs 的简单而有效的文本擦除器，在编码器 - 解码器框架内集成文本定位和修复，通过 SegMIM 方法进行端到端预训练，实现了在场景文本去除方面的最先进性能提升，表明了 ViTs 在此领域的广泛应用前景。

Abstract

scene text removal (STR) aims at replacing text strokes in natural scenes with visually coherent backgrounds. Recent STR approaches rely on iterative refinements or explicit text masks, resulting in higher complexity and sensitivity to the accuracy of text localization. Moreover, most

scene text removal vision transformers text eraser encoder-decoder framework segmim

发现论文，激发创造

用于快速高效场景文本识别的 Vision Transformer

本文提出 ViTSTR 作为一种简单的单阶段模型架构的 STR，其基于一种计算和参数高效的视觉变换器（ViT），ViTSTR 在以往的基准测试方法中取得了具有竞争力的准确率 82.6％（具有数据增强时为 84.2％），可获得 2.4 倍的加速比，只使用 43.4％的参数数量和 42.2％的 FLOPS。

May, 2021

VIPTR：一种用于快速高效的场景文本识别的可置换视觉特征提取器

本研究提出了一种 VIPTR（VIsion Permutable extractor for fast and efficient scene Text Recognition）方法，它利用具有金字塔结构的视觉语义提取器以及多个自注意层，避免了传统序列解码器的依赖，从而实现了在场景文本识别领域高性能和快速推理速度之间的卓越平衡。在多个标准数据集上的大量实验结果验证了 VIPTR 的卓越优势，在中英文场景文本识别方面取得了领先位置，同时 VIPTR-T（Tiny）在保持与其他轻量级模型相媲美的准确性的基础上，实现了最先进的推理速度，而 VIPTR-L（Large）在保持较低参数和良好推理速度的同时，实现了更高的识别准确性。本研究提出的方法为场景文本识别挑战提供了一个引人注目的解决方案，将高准确性和高效性相结合，极大地促进了对快速可靠文本识别的现实应用。

Jan, 2024

集成专家的纯 Transformer 用于场景文本识别

本文提出了使用 tranformer-only 模型作为识别场景文字的基线，并且利用 Pure Transformer with Integrated Experts 优化了解码过程，实现了对多尺度图片的处理和原始字符顺序的识别，并在七个基准测试中超越了 20 个最先进的方法，达到了最先进的效果。

Nov, 2022

场景文本识别的多粒度预测

本文旨在解决场景文字识别中的挑战性问题，通过引入 Vision Transformer，构建了一个概念简单而强大的模型，同时通过提出一种多粒度预测策略，将语言模态的信息融合到模型中，从而将每个子词表示与常规字符表示结合起来，使 STR 性能得到进一步提升。最终该算法在标准基准测试中获得了 93.35% 的平均识别准确率。

Sep, 2022

PSSTRNet：渐进式分割引导的场景文本去除网络

我们提出了一种简单的 PSSTRNet，用于通过场景文本分割逐步删除图像中的文本，实现了最先进的性能表现。

Jun, 2023

视觉语义提高了场景文本识别中的文本推理水平

该研究提出了一种基于图卷积网络的文本推理（GTR）方法并将其应用于场景文本识别中，该方法可以利用像素之间的空间关联来提高文本识别的性能，并在六个具有挑战性的基准测试中获得最新的最佳结果。

Dec, 2021

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

SegViTv2: 使用纯视觉 Transformer 探索高效持续语义分割

使用 Vision Transformers 进行语义分割的研究，提出了 SegViTv2，通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本，同时在持续学习的环境下实现近乎零遗忘。实验结果表明，SegViT 优于当前流行的语义分割方法。

Jun, 2023

利用门控注意力和感兴趣区域生成的惊人简单的场景文本去除方法：全面突出模型分析

使用相同的标准化训练 / 评估数据集对多种先前的方法进行评估，提出了一种简单而极其有效的门控注意力（GA）和感兴趣区域生成（RoIG）方法，证明了这种方法在几乎所有指标上都明显优于现有的最先进方法，速度更快，参数更少。

Oct, 2022

CLIP4STR: 使用预训练视觉语言模型的场景文本识别的简单基线

介绍了 CLIP4STR，一种基于 CLIP 的简单而有效的场景文字识别方法，通过图像和文本编码器构建，具有双预测和精炼解码机制。实验表明，该方法在 11 个 STR 基准测试中达到了最新的最佳性能。

May, 2023