Mask 是你所需要的：重新思考 Mask R-CNN 用于密集和任意形状场景文本检测

MMSep, 2021

Mask 是你所需要的：重新思考 Mask R-CNN 用于密集和任意形状场景文本检测

Mask is All You Need: Rethinking Mask R-CNN for Dense and Arbitrary-Shaped Scene Text Detection

Xugong Qin, Yu Zhou, Youhui Guo, Dayan Wu, Zhihong Tian...

TL;DR本文针对 Mask R-CNN 在场景文本检测与定位中面临的实际问题，提出了一种基于 MLP 解码器和实例感知掩模学习技术的方法，可以显著提高鲁棒性。同时提出了一种自适应标签分配方法，以应对比例和宽高比差异较大的实例问题。该方法在多个基准测试中展现了优异的性能。

Abstract

Due to the large success in object detection and instance segmentation, Mask R-CNN attracts great attention and is widely adopted as a strong baseline for arbitrary-shaped scene text detection and spotting. However, two issues remain to be settled. The first is dense text case, which i

mask r-cnn scene text detection instance-aware mask learning mlp decoder adaptive label assignment

发现论文，激发创造

口罩头结构对新类别分割的惊人影响

通过部分监督学习方法，我们设计了一种训练模型，在只有少数类别的实例标注数据下，通过可微分裁剪和只使用 Groundtruth box 的方法，取得了 COCO 部分监督分割测试集的最佳表现，并发现了强大的 mask-head 泛化效应。

Apr, 2021

使用金字塔注意网络的 Mask R-CNN 进行场景文字检测

本文提出了基于 Mask R-CNN 技术的文本检测新方法，应用金字塔注意力网络作为新的 Mask R-CNN 骨干网络以提高其特征表达能力，该方法可以统一地在自然场景图像中稳健地检测多定向和曲线文本，并在多种测试数据集上获得优越的性能。

Nov, 2018

掩码 R-CNN

我们提出了一个简单、灵活、通用的物体实例分割框架。此方法名为 Mask R-CNN，通过在现有的边界框识别分支上添加一个预测对象掩模的分支，同时高效地检测图像中的物体并生成每个实例的高质量分割掩模。该方法简单易用，可快速训练，并且在 COCO 挑战赛的三个跟踪任务中均取得最佳结果，在实例分割、边界框目标检测和人体关键点检测方面均表现优异，是一个强大的基线模型。

Mar, 2017

Mask TextSpotter v3：面向鲁棒性场景文本检测的分割网络

该研究提出了一种名为 Mask TextSpotter v3 的新的场景文本识别算法，采用 Segmentation Proposal Network（SPN）代替 RPN，从而可以更准确和有效地识别和处理极端宽高比或不规则形状的文本实例，并且识别精度不会受到附近文本或背景噪声的干扰。在多个数据集上的实验中，该算法已实现最优性能。

Jul, 2020

TensorMask: 基于张量的密集物体分割基础

本文研究了密集滑动窗口实例分割的范例，将其作为 4D 张量预测任务，提出了一种称为 TensorMask 的通用框架，可以明确捕获几何信息和使预测更加准确，比现有的模型具有更好的性能表现。

Mar, 2019

Mask TextSpotter：一种端到端可训练神经网络，用于检测任意形状的文本

本文提出了一种名为 Mask TextSpotter 的针对场景文本定位和识别问题的端到端训练的神经网络模型，并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上进行了实验，展现出在场景文本检测和端到端文本识别任务方面的最新水平。

Jul, 2018

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

BlendMask: 自顶向下与自底向上相遇的实例分割

本文提出了一种新的旨在优化实例分割方法的卷积神经网络，该网络称为 BlendMask。BlendMask 可以有效地将实例级信息与语义信息相结合，并能够学习每个实例的注意力图，并且具有较快的推理速度，其可以与最先进的一阶段检测框架轻松集成，同时在相同训练计划下优于 Mask R-CNN，并可以在单个 1080Ti GPU 卡上以 25 FPS 评估时实现 34.2％ mAP，其简单易用而且强大，可用于一系列实例化任务。

Jan, 2020

聚焦实例边界以加速 Mask R-CNN 训练

本文提出了一个新的预测模型 ——Edge Agreement Head，它可加快 Mask R-CNN 模型实例分割网络的训练速度，同时也提升了 MS COCO metrics 的表现。

Sep, 2018

金字塔掩模文字檢測器

本文提供了一个名为 PMTD 的新 Mask R-CNN 框架，采用基于像素级回归的方法进行场景文本检测，以产生更具信息量的软文本标记。同时，该方法重新解释获取的 2D 软掩模，将其转换到 3D 空间，并引入一种新的平面聚类算法，以推导出基于 3D 形状的最优文本框。实验表明，PMTD 提高了场景文本检测的准确率，明显优于现有方法，在 ICDAR 2017 MLT 数据集上的 F-measure 达到 80.13％。

Mar, 2019