Sep, 2023

像素适配器:基于图的场景文本图像超分辨率后处理方法

TL;DR当前的场景文本图像超分辨率方法主要关注于提取稳健特征、获取文本信息和复杂的训练策略以生成超分辨率图像。然而,现有的方法很少关注将低分辨率图像转换为高分辨率图像过程中至关重要的上采样模块。为了解决这个问题,我们提出了基于图注意力的像素适配器模块(Pixel Adapter Module,PAM),用于解决上采样引起的像素失真问题。与以往的图注意力机制不同的是,我们的方法通过消除对稀疏邻接矩阵的依赖,引入滑动窗口的方法进行有效并行计算,从而实现了效率和内存利用率的 2-3 个数量级的改进。此外,我们引入了基于 MLP 的连续残差块(MSRB)用于从文本图像中提取稳健特征,并引入了局部轮廓感知损失(LCA 损失)来增强模型对细节的感知能力。在 TextZoom 上的综合实验证明,我们的方法生成了高质量的超分辨率图像,超过了现有方法在识别准确性上的表现。对于单阶段和多阶段策略,我们分别实现了 0.7% 和 2.6% 的改进,将性能从 52.6% 和 53.7% 提高到 53.3% 和 56.3%。这里是代码的链接:this https URL