本文提出了一种通过卷积神经网络模型擦除自然场景图像中文字信息的方法,并通过场景文本检测方法对其性能进行了测试,证明了与直接文本检测方式相比,场景文本擦除过程显着降低了精度、召回率和 F1 值。
May, 2017
本文提出了一种具有显式擦除指导和平衡的多阶段擦除算法,并引入区域修改策略与逐步擦除过程,实现了场景文本的准确、全面删除。
Jun, 2021
通过迭代操作来擦除图像中的文本,并引入了创新的擦除模块和自定义掩码生成策略,实现了具有强大通用性的 DeepEraser。
Feb, 2024
通过渐进式轮廓回归及轮廓变换器,我们提出了一种名为 CT-Net 的新型任意形状场景文本检测框架,以解决前端轮廓初始化不准确、多阶段误差累积或局部信息聚合不足的限制,并通过大量实验验证了其在准确性和效率方面超越了现有方法。
Jul, 2023
研究提出了一种新的自监督文本擦除 (STE) 框架,该框架通过联合学习合成带有擦除的训练图像和精确擦除现实世界中的文本来实现无监督场景文本擦除,提出了一种基于两个合成机制的样式感知图像合成函数,通过选择两个特别设计的奖励来控制合成机制,使用三元擦除损失促进精炼阶段恢复背景纹理,最后使用新的数据集 PosterErase 和广泛使用的 SCUT-Enstext 数据集进行了评估。
Apr, 2022
本文提出了一种名为 Mask TextSpotter 的针对场景文本定位和识别问题的端到端训练的神经网络模型,并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上进行了实验,展现出在场景文本检测和端到端文本识别任务方面的最新水平。
Jul, 2018
本文提出了一种新的方法来移除自然图像上的文本,该方法使用 ensconce 网络(EnsNet),可以在单个图像上端到端地运行,无需任何先前知识,并使用多尺度回归损失,纹理损失和总变差损失等四个损失函数来增强功能。与以前的方法不同的是,EnsNet 可以在插入场景文本的图像补丁之前准确地分别在笔画级别上定位文本,然后将其替换为具有视觉上合理的背景。从合成图像和 ICDAR 2013 数据集的定性和定量灵敏度实验以及针对 SMBNet 数据集的定性实验结果表明,EnsNet 的每个组件对于实现良好性能都是必不可少的,并且在所有指标方面均明显优于先前最先进的方法。此外,该方法还可以在一般物体(如行人)的去除任务上表现良好。
Dec, 2018
本文提出了一种名为 Feature Erasing and Transferring(FET)的机制,用于重新配置编码特征以进行场景文本去除,并构建了一个名为 FETNet 的一阶段端到端可训练网络;此外,作者还介绍了一个名为 Flickr-ST 的新数据集,其中包含多类别注释。在公共数据集和 Flickr-ST 上进行了充分数量的实验和消融研究,证明了该方法在大多数度量标准下均实现了最先进的性能,且场景文本去除结果质量显著提高。
Jun, 2023
本文针对自然图像中的文本编辑问题,提出了一个端到端的训练风格保留网络(SRNet)来实现文本内容的替换和修改,实验证明与其他方法相比,该方法在视觉效果和定量结果上表现良好。
Aug, 2019
本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法,只需要空间注意力而不需要矫正图像,仅使用卷积特征图作为单词嵌入输入到 transformer 中,并在大规模实验中取得了显著的优越性能。
Mar, 2020