MMSep, 2021

Mask 是你所需要的:重新思考 Mask R-CNN 用于密集和任意形状场景文本检测

TL;DR本文针对 Mask R-CNN 在场景文本检测与定位中面临的实际问题,提出了一种基于 MLP 解码器和实例感知掩模学习技术的方法,可以显著提高鲁棒性。同时提出了一种自适应标签分配方法,以应对比例和宽高比差异较大的实例问题。该方法在多个基准测试中展现了优异的性能。