选择性场景文本去除

Sep, 2023

Selective Scene Text Removal

Hayato Mitani, Akisato Kimura, Seiichi Uchida

TL;DR该论文提出了一种名为选择性场景文本去除（SSTR）的新任务设置，该任务允许用户只去除指定的目标词，通过提出的多模块结构，能够高效训练 SSTR，并展示实验结果证明该方法能如预期地去除目标词。

Abstract

scene text removal (STR) is the image transformation task to remove text regions in scene images. The conventional STR methods remove all scene text. This means that the existing methods cannot select text to be removed. In this paper, we propose a novel task setting named selective

scene text removal conventional methods selective scene text removal multi-module structure target words

发现论文，激发创造

PSSTRNet：渐进式分割引导的场景文本去除网络

我们提出了一种简单的 PSSTRNet，用于通过场景文本分割逐步删除图像中的文本，实现了最先进的性能表现。

Jun, 2023

利用门控注意力和感兴趣区域生成的惊人简单的场景文本去除方法：全面突出模型分析

使用相同的标准化训练 / 评估数据集对多种先前的方法进行评估，提出了一种简单而极其有效的门控注意力（GA）和感兴趣区域生成（RoIG）方法，证明了这种方法在几乎所有指标上都明显优于现有的最先进方法，速度更快，参数更少。

Oct, 2022

AutoSTR: 场景文本识别高效骨干网络搜索

本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能，实验表明，通过搜索数据依赖的骨干，AutoSTR 可以在标准基准测试中胜过最先进的方法，且 FLOPS 和模型参数更少。

Mar, 2020

重访场景文本识别：基于数据的视角

本文从数据导向的角度重新评估场景文字识别（STR）。作者重新审视了 STR 中六个常用基准，并观察到性能饱和的趋势，通过 13 个代表性模型，只有 2.91％的基准图像不能被准确识别。然而，作者认为这主要是由于常见基准的挑战程度较低，从而掩盖了 STR 所面临的潜在问题。为了评估 STR 模型在更复杂的真实场景中的表现，作者整理了一个大规模的真实 STR 数据集 Union14M，包括 400 万张带标签图像和 1000 万张未标记图像。实验证明 13 个模型在 400 万张有标签图像上只能达到 66.53％的平均准确率，表明 STR 在真实场景中仍面临许多挑战。通过分析这些模型的错误模式，作者确定了 STR 领域的七个难题，并构建了一个以挑战为驱动的基准，包括八个独立子集，以促进该领域的进一步发展。作者的探索表明，STR 远未解决，并且利用数据可能是一个有希望的解决方案。在这方面，作者发现通过自监督预训练利用 1000 万个未标记图像可以显著提高 STR 模型在真实场景中的鲁棒性，并取得了最先进的性能。

Jul, 2023

场景文本识别的数据增强

该论文使用 STRAug 增强模型，包含 36 个针对场景文本图像属性的图像增强函数，有效地提高了模型对正常和不规则测试数据集的准确度。

Aug, 2021

SCATTER：一种选择性上下文关注场景文本识别器

本文提出了一种名为 Selective Context ATtentional Text Recognizer（SCATTER）的新型场景文本识别（STR）架构，利用一种叠加块结构的中间监督方式进行训练，成功地训练出深度双向 LSTM 编码器，提高了上下文依赖关系的编码。使用两步 1D 注意机制进行解码，与之前的论文相似，处理序列特征并关注序列内部关系。实验证明该方法在不规则文本识别基准上的表现优于当前最先进技术平均提高了 3.7％。

Mar, 2020

单解码器双向场景文本识别

介绍了一种使用单个解码器进行双向文本解码的新型双向美术场景文本识别方法 Bi-STET，该方法比使用两个独立解码器进行双向解码的方法更高效，并在所有 STR 基准测试中实现或超越最先进的方法。

Dec, 2019

PERT：一种逐步区域化的场景文本去除网络

本文提出了一种具有显式擦除指导和平衡的多阶段擦除算法，并引入区域修改策略与逐步擦除过程，实现了场景文本的准确、全面删除。

Jun, 2021

基于几何感知的高效文本识别

本文介绍用于场景文本识别的深度学习架构 GeoTRNet 的概念、理论、实现及实验结果，该架构专用于处理常规场景文本，只使用几何特征识别图像中的数字，具有优异的模型可部署性、数据隐私性、模型可靠性，同时具有最小化模型权重、更短的推理时间等优势。

Feb, 2023

将场景文本识别器的性能极限推至无需人工注释

本文介绍了一种利用合成数据和大量真实未标记图像的半监督框架来提高场景文本识别模型性能的方法。该框架基于鲁棒的一致性正则化，有效地解决了合成和真实图像之间的域不一致性问题，并在多项实验中显示出稳定性和准确性，同时提高了场景文本识别模型达到了最新的最优结果，是首个成功应用一致性正则化框架于场景文本识别的方法。

Apr, 2022