CPN: 用于非受限文本检测的补充提案网络

AAAIFeb, 2024

CPN: 用于非受限文本检测的补充提案网络

CPN: Complementary Proposal Network for Unconstrained Text Detection

Longhuang Wu, Shangxuan Tian, Youxin Wang, Pengfei Xiong

TL;DR通过整合语义和几何信息，提出了一种互补建议网络（CPN）来改进场景文字检测，并在可比较的计算成本下，显著超越现有方法在 ICDAR19-ArT、IC15 和 MSRA-TD500 等基准上分别取得了 3.6％，1.3％和 1.0％的改进。

Abstract

Existing methods for scene text detection can be divided into two paradigms: segmentation-based and anchor-based. While →

scene text detection segmentation-based anchor-based complementary proposal network proposal generation

发现论文，激发创造

使用连接文本建议网络检测自然图像中的文本

本文提出了一种新型的 Connectionist Text Proposal Network，它能够准确地定位自然图像中的文本行，采用纵向锚点机制、卷积神经网络和循环神经网络，可以探索图像的丰富上下文信息，在 ICDAR 2013 和 2015 两个基准测试中实现了 0.88 和 0.61 的超高分数。

Sep, 2016

无 Anchor，两阶段物体检测的角点提案网络

该论文提出了一种新的基于角点建议网络（CPN）的锚点自由，两阶段目标检测框架，首先通过查找潜在角点关键点组合提取了许多物体建议，然后通过一个独立的分类阶段为每个建议分配一个类别标签，从而提高了召回率和精度。在 MS-COCO 数据集上，CPN 实现了 49.2% 的 AP，超越了大多数同样推理速度的竞争对手。

Jul, 2020

任意形状文本检测的核心提案网络

本文提出了一个名为 KPN 的创新型 Kernel Proposal Network 用于任意形状文本检测，该方法通过预测高斯中心图，从嵌入特征图中提取候选动态卷积核以分离邻近文本实例，同时通过正交约束保证核的独立性，进而将各个核分别卷积输入特征图并生成文本实例的嵌入图，最终有效地解决了邻近文本实例粘连问题，并取得了优异的性能表现。

Mar, 2022

上下文感知提议网络用于时间动作检测

本技术报告介绍了我们在 CVPR-2022 AcitivityNet 挑战赛中获取的第一名的解决方案，该解决方案旨在为长型未修剪视频中的特定类别的动作实例定位时间边界，并且通过提出 Context-aware Proposal Network (CPN) 等创新技术，在提高精度方面大有改进。

Jun, 2022

一种基于 Faster R-CNN 的自由锚点区域提议网络用于文本检测方法

本论文提出了一种新的基于区域提案网络的方法来替换 Faster R-CNN 中的锚点机制，通过去除复杂的锚点设计，可以在大规模 COCO-Text 数据集上实现更高的召回率，并在 ICDAR-2017 MLT、ICDAR-2015 和 ICDAR-2013 文本检测基准测试中取得最先进的结果。

Apr, 2018

Mask TextSpotter v3：面向鲁棒性场景文本检测的分割网络

该研究提出了一种名为 Mask TextSpotter v3 的新的场景文本识别算法，采用 Segmentation Proposal Network（SPN）代替 RPN，从而可以更准确和有效地识别和处理极端宽高比或不规则形状的文本实例，并且识别精度不会受到附近文本或背景噪声的干扰。在多个数据集上的实验中，该算法已实现最优性能。

Jul, 2020

深层匹配先验网络：朝向更紧凑的多向文本检测

本文提出了一种基于卷积神经网络的新方法 Deep Matching Prior Network，通过使用四边形滑动窗口和快速计算多边形区域的共享蒙特卡罗方法来检测具有更紧致四边形的场景文本。本方法的性能在公共场景文本数据集上进行了评估，表现出比现有的 state-of-the-art 方法更好的 F-measure 值。

Mar, 2017

DeepText: 自然图像文本提议生成和文本检测的统一框架

本文提出了一种名为 DeepText 的新型文本区域提案生成和文本检测的统一框架，通过卷积神经网络（CNN）实现。通过 Inception-RPN 提出区域提案，引入 ATC 信息和 MLRP 实现文本和非文本分类和准确定位，最终通过迭代边界框投票和筛选算法获得高的召回率。该方法在 ICDAR 2011 和 2013 的检测基准测试中取得了 F-measure 为 0.83 和 0.85 的优异结果，超过了以前的最新研究成果。

May, 2016

Pixel-Anchor：一种使用组合网络的快速方向场景文本检测器

该论文提出了一种名为 Pixel-Anchor 的新型神经网络框架，它通过特征共享和锚点级别的注意机制结合了语义分割和 SSD 来检测方向场景文本，并在公共数据集上取得了优异的文本定位准确度和运行速度。

Nov, 2018

级联金字塔网络用于多人姿势估计

本研究提出了一种名为 CPN 的多人姿态估计的网络结构，该算法采用自上而下的流程首先生成人体边界框，然后在每个边界框内使用 CPN 进行关键点的定位，实验结果显示与 COCO 数据集上的平均精度 73.0 和 72.1 相比，相对提高了 19%

Nov, 2017