Recently, segmentation-based scene text detection methods have drawn
extensive attention in the scene text detection field, because of their
superiority in detecting the text instances of arbitrary shapes and extreme
aspect ratios, profiting from the pixel-level descriptions. However,
本文提出使用 Feature Fusion with Different Norms (FFDN),利用多重尺度的丰富全局上下文信息和垂直池化模块来减少在垂直方向上全局上下文编码的复杂度。在城市风景测试数据集上,平均交互并集(mIoU)为 73.1,每秒帧数(FPS)为 191,与目前最先进的结果相当。
本研究提出了一种用于场景文本检测的新算法,其中提出了一组策略来显着提高文本定位的质量。具体而言,提出了一种文本特征对齐模块(TFAM),用于根据初始原始检测动态调整特征的感受域;设计了一种位置感知非极大值抑制模块(PA-NMS)来选择性地集中于可靠的原始检测,排除不可靠的检测,此外还提出了一种实例 IoU 损失来平衡针对不同比例的文本实例的训练。通过广泛的消融研究,证明了所提出策略的有效性和优越性。最终,将这些策略与业内领先的场景文本检测器 EAST 集成,实现了在保持快速运行速度的同时,达到了各种标准文本检测基准上的最新或有竞争力的性能。