Feb, 2024

基于类别感知的文本场景识别的掩膜引导特征细化

TL;DR提出了一种名为 Class-Aware Mask-guided feature refinement(CAM)的新方法来改善复杂背景、文本样式噪声等方面对场景文本识别的挑战,并通过标准字体生成规范的类感知字形掩码来增强特征区分性、设计特征对齐和融合模块来进一步提升文本识别的特征细化。在六个标准文本识别基准测试中,CAM 展示出优于先进方法的优势,平均性能提高了 4.1%,并且使用较小的模型尺寸。该研究强调了在鲁棒场景文本识别中融入规范的掩码指导和对齐特征细化技术的重要性。