Aug, 2023

MixNet: 在野外准确检测具挑战性场景文本的研究

TL;DRMixNet 是一种综合 CNN 和 Transformer 优势的混合架构,能够准确地检测小文本,不受方向、风格和光照条件的影响。MixNet 通过 Feature Shuffle Network(FSNet)和 Central Transformer Block(CTBlock)两个关键模块实现,其中 FSNet 通过特征重排策略生成高分辨率特征,优于 ResNet 和 HRNet;CTBlock 基于中心线特征,在小文本紧密出现时优于基于轮廓的方法。大量实验证明,MixNet 在多个场景文本检测数据集上实现了最先进的结果。