PERT：一种逐步区域化的场景文本去除网络

Jun, 2021

PERT：一种逐步区域化的场景文本去除网络

PERT: A Progressively Region-based Network for Scene Text Removal

Yuxin Wang, Hongtao Xie, Shancheng Fang, Yadong Qu, Yongdong Zhang

TL;DR本文提出了一种具有显式擦除指导和平衡的多阶段擦除算法，并引入区域修改策略与逐步擦除过程，实现了场景文本的准确、全面删除。

Abstract

scene text removal (STR) contains two processes: text localization and background reconstruction. Through integrating both processes into

scene text removal text localization background reconstruction region-based modification strategy multi-stage erasure

发现论文，激发创造

PSSTRNet：渐进式分割引导的场景文本去除网络

我们提出了一种简单的 PSSTRNet，用于通过场景文本分割逐步删除图像中的文本，实现了最先进的性能表现。

Jun, 2023

利用门控注意力和感兴趣区域生成的惊人简单的场景文本去除方法：全面突出模型分析

使用相同的标准化训练 / 评估数据集对多种先前的方法进行评估，提出了一种简单而极其有效的门控注意力（GA）和感兴趣区域生成（RoIG）方法，证明了这种方法在几乎所有指标上都明显优于现有的最先进方法，速度更快，参数更少。

Oct, 2022

MTRNet: 通用场景文本擦除器

提出了一种基于掩模的文字删除方法（MTRNet），作为一种有条件的对抗性生成网络（cGAN），配备辅助掩模使其成为通用文本擦除工具，该算法在多个真实数据集上实现了最先进的结果。

Mar, 2019

FETNet: 场景文本去除的特征擦除和转移网络

本文提出了一种名为 Feature Erasing and Transferring（FET）的机制，用于重新配置编码特征以进行场景文本去除，并构建了一个名为 FETNet 的一阶段端到端可训练网络；此外，作者还介绍了一个名为 Flickr-ST 的新数据集，其中包含多类别注释。在公共数据集和 Flickr-ST 上进行了充分数量的实验和消融研究，证明了该方法在大多数度量标准下均实现了最先进的性能，且场景文本去除结果质量显著提高。

Jun, 2023

选择性场景文本去除

该论文提出了一种名为选择性场景文本去除（SSTR）的新任务设置，该任务允许用户只去除指定的目标词，通过提出的多模块结构，能够高效训练 SSTR，并展示实验结果证明该方法能如预期地去除目标词。

Sep, 2023

场景文本擦除器

本文提出了一种通过卷积神经网络模型擦除自然场景图像中文字信息的方法，并通过场景文本检测方法对其性能进行了测试，证明了与直接文本检测方式相比，场景文本擦除过程显着降低了精度、召回率和 F1 值。

May, 2017

具有可控图像合成的自监督文字擦除

研究提出了一种新的自监督文本擦除 (STE) 框架，该框架通过联合学习合成带有擦除的训练图像和精确擦除现实世界中的文本来实现无监督场景文本擦除，提出了一种基于两个合成机制的样式感知图像合成函数，通过选择两个特别设计的奖励来控制合成机制，使用三元擦除损失促进精炼阶段恢复背景纹理，最后使用新的数据集 PosterErase 和广泛使用的 SCUT-Enstext 数据集进行了评估。

Apr, 2022

自然场景图像中的鲁棒文字检测

本文提出了一种准确和鲁棒性较高的文本检测方法，通过设计快速有效的剪枝算法，使用最小化正则化变化策略来提取极值区域，然后通过单链接聚类算法将字符候选分组为文本候选，在使用一种自学习距离度量算法自动学习距离权重和聚类算法的阈值来识别文本候选，并使用字符分类器估计相应的文本候选的后验概率来消除具有高概率的非文本文本候选，并最终识别出文本。通过实验结果证明，该方法的检测效果优于其他竞争方法。

Jan, 2013

ViTEraser: 利用视觉 Transformer 和 SegMIM 预训练技术进行场景文本擦除

本研究提出了一种基于 ViTs 的简单而有效的文本擦除器，在编码器 - 解码器框架内集成文本定位和修复，通过 SegMIM 方法进行端到端预训练，实现了在场景文本去除方面的最先进性能提升，表明了 ViTs 在此领域的广泛应用前景。

Jun, 2023

探索逐笔修改用于场景文本编辑

提出了一种称为 MOSTEL 的新网络来处理场景文本编辑的两个主要问题：显式解耦结构和域差异。该方法利用笔划的导向图来明确指示文本区域进行编辑规则，并采用半监督混合学习来使模型适应实际数据集分布。实验结果表明，MOSTEL 在质量和数量上均优于之前的方法。

Dec, 2022