Jun, 2023

ViTEraser: 利用视觉 Transformer 和 SegMIM 预训练技术进行场景文本擦除

TL;DR本研究提出了一种基于 ViTs 的简单而有效的文本擦除器,在编码器 - 解码器框架内集成文本定位和修复,通过 SegMIM 方法进行端到端预训练,实现了在场景文本去除方面的最先进性能提升,表明了 ViTs 在此领域的广泛应用前景。