场景文本擦除器

May, 2017

Scene Text Eraser

Toshiki Nakamura, Anna Zhu, Keiji Yanai, Seiichi Uchida

TL;DR本文提出了一种通过卷积神经网络模型擦除自然场景图像中文字信息的方法，并通过场景文本检测方法对其性能进行了测试，证明了与直接文本检测方式相比，场景文本擦除过程显着降低了精度、召回率和 F1 值。

Abstract

The character information in natural scene images contains various personal information, such as telephone numbers, home addresses, etc. It is a high risk of leakage the information if they are published. In this paper, we proposed a scene →

natural scene images text erasing convolutional neural network scene text detection icdar2013

发现论文，激发创造

具有可控图像合成的自监督文字擦除

研究提出了一种新的自监督文本擦除 (STE) 框架，该框架通过联合学习合成带有擦除的训练图像和精确擦除现实世界中的文本来实现无监督场景文本擦除，提出了一种基于两个合成机制的样式感知图像合成函数，通过选择两个特别设计的奖励来控制合成机制，使用三元擦除损失促进精炼阶段恢复背景纹理，最后使用新的数据集 PosterErase 和广泛使用的 SCUT-Enstext 数据集进行了评估。

Apr, 2022

基于文本注意力的卷积神经网络用于场景文本检测

本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统，并通过多层和丰富的监督信息，包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终，该方法在 ICDAR 2013 数据集上取得了很好的效果。

Oct, 2015

MTRNet: 通用场景文本擦除器

提出了一种基于掩模的文字删除方法（MTRNet），作为一种有条件的对抗性生成网络（cGAN），配备辅助掩模使其成为通用文本擦除工具，该算法在多个真实数据集上实现了最先进的结果。

Mar, 2019

使用滑动卷积字符模型识别场景文本

本文提出了一种基于卷积特征映射中的字符模型的场景文本识别方法，可以避免基于分割的识别方法中的字符分割困难，并且可以识别未知单词，与现有方法相比具有相对较小的模型大小和优秀的性能表现。

Sep, 2017

EnsNet：将文本藏匿于野外

本文提出了一种新的方法来移除自然图像上的文本，该方法使用 ensconce 网络（EnsNet），可以在单个图像上端到端地运行，无需任何先前知识，并使用多尺度回归损失，纹理损失和总变差损失等四个损失函数来增强功能。与以前的方法不同的是，EnsNet 可以在插入场景文本的图像补丁之前准确地分别在笔画级别上定位文本，然后将其替换为具有视觉上合理的背景。从合成图像和 ICDAR 2013 数据集的定性和定量灵敏度实验以及针对 SMBNet 数据集的定性实验结果表明，EnsNet 的每个组件对于实现良好性能都是必不可少的，并且在所有指标方面均明显优于先前最先进的方法。此外，该方法还可以在一般物体（如行人）的去除任务上表现良好。

Dec, 2018

利用门控注意力和感兴趣区域生成的惊人简单的场景文本去除方法：全面突出模型分析

使用相同的标准化训练 / 评估数据集对多种先前的方法进行评估，提出了一种简单而极其有效的门控注意力（GA）和感兴趣区域生成（RoIG）方法，证明了这种方法在几乎所有指标上都明显优于现有的最先进方法，速度更快，参数更少。

Oct, 2022

PERT：一种逐步区域化的场景文本去除网络

本文提出了一种具有显式擦除指导和平衡的多阶段擦除算法，并引入区域修改策略与逐步擦除过程，实现了场景文本的准确、全面删除。

Jun, 2021

自然场景图像中的鲁棒文字检测

本文提出了一种准确和鲁棒性较高的文本检测方法，通过设计快速有效的剪枝算法，使用最小化正则化变化策略来提取极值区域，然后通过单链接聚类算法将字符候选分组为文本候选，在使用一种自学习距离度量算法自动学习距离权重和聚类算法的阈值来识别文本候选，并使用字符分类器估计相应的文本候选的后验概率来消除具有高概率的非文本文本候选，并最终识别出文本。通过实验结果证明，该方法的检测效果优于其他竞争方法。

Jan, 2013

利用字体自适应神经网络的场景文本编辑器 STEFANN

本文介绍了一种用于在图像中修改文本的方法，该方法使用两种不同的神经网络体系结构生成目标字符，以实现透明性、一致性和准确性，旨在通过在图像上直接编辑文本来纠正错误、恢复文本和提高图像可重用性。

Mar, 2019

基于 Transformer 的场景文本识别

本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法，只需要空间注意力而不需要矫正图像，仅使用卷积特征图作为单词嵌入输入到 transformer 中，并在大规模实验中取得了显著的优越性能。

Mar, 2020