PSSTRNet:渐进式分割引导的场景文本去除网络
该论文提出了一种名为选择性场景文本去除(SSTR)的新任务设置,该任务允许用户只去除指定的目标词,通过提出的多模块结构,能够高效训练 SSTR,并展示实验结果证明该方法能如预期地去除目标词。
Sep, 2023
使用相同的标准化训练 / 评估数据集对多种先前的方法进行评估,提出了一种简单而极其有效的门控注意力(GA)和感兴趣区域生成(RoIG)方法,证明了这种方法在几乎所有指标上都明显优于现有的最先进方法,速度更快,参数更少。
Oct, 2022
本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能,实验表明,通过搜索数据依赖的骨干,AutoSTR 可以在标准基准测试中胜过最先进的方法,且 FLOPS 和模型参数更少。
Mar, 2020
本研究提出了一种基于 ViTs 的简单而有效的文本擦除器,在编码器 - 解码器框架内集成文本定位和修复,通过 SegMIM 方法进行端到端预训练,实现了在场景文本去除方面的最先进性能提升,表明了 ViTs 在此领域的广泛应用前景。
Jun, 2023
通过三阶段框架将文字在图像中进行替换,包括使用文字交换网络将原始文字替换为所需替代文字,结合背景修复网络巧妙地重建背景图像以保持视觉和谐,并通过融合网络综合合成最终编辑的图像。
Oct, 2023
本文提出了一种名为 Feature Erasing and Transferring(FET)的机制,用于重新配置编码特征以进行场景文本去除,并构建了一个名为 FETNet 的一阶段端到端可训练网络;此外,作者还介绍了一个名为 Flickr-ST 的新数据集,其中包含多类别注释。在公共数据集和 Flickr-ST 上进行了充分数量的实验和消融研究,证明了该方法在大多数度量标准下均实现了最先进的性能,且场景文本去除结果质量显著提高。
Jun, 2023
基于深度卷积分割算法的场景文本检测器通过学习判别性分割阈值和设计全局信息增强特征金字塔网络,实现了对具有极端长宽比的文本实例的有效检测和自适应分割,为场景文本检测提供了最新的性能表现。
Jul, 2023
介绍了一种使用单个解码器进行双向文本解码的新型双向美术场景文本识别方法 Bi-STET,该方法比使用两个独立解码器进行双向解码的方法更高效,并在所有 STR 基准测试中实现或超越最先进的方法。
Dec, 2019
通过结合语言知识和视觉模型,本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法,用于场景文本识别,取得了优异的识别结果。
Jul, 2023