从单点到多边形的场景文本渐进式演变

Dec, 2023

从单点到多边形的场景文本渐进式演变

Progressive Evolution from Single-Point to Polygon for Scene Text

Linger Deng, Mingxin Huang, Xudong Xie, Yuliang Liu, Lianwen Jin...

TL;DR通过使用合成的识别信息，我们提出了 Point2Polygon 方法，将单点标注高效地转换为紧凑的多边形，并通过广泛实验证明了生成多边形的准确性。

Abstract

The advancement of text shape representations towards compactness has enhanced text detection and spotting performance, but at a high annotation cost. Current models use single-point annotations to reduce costs, yet they lack sufficient localization information for downstream applicati

text shape representations compact polygons recognition information ground truth points single-point spotters

发现论文，激发创造

SPTS v2：单点场景文本检测

本文提出了 SPTS v2 框架，采用单点注释作为代替传统文本检测与识别的昂贵手工注释方法。采用基于自回归 Transformer 的 IAD 对同一预测序列内所有文本实例的中心点进行预测，采用 PRD 进行文本识别。详细实验结果证明该方法可超越现有单点文本定位器的性能而实现 14 倍更快的推断速度。同时，实验还进一步展示了单点注释比非点注释和多边形边界框更为适合场景文本识别。

Jan, 2023

Box2Poly: 内存高效多边形预测任意形状和旋转文本

通过使用 Sparse R-CNN 中的级联解码流程进行多边形预测，我们提出了一种创新的方法来解决基于 Transformer 的文本检测技术中的挑战，既能提高精度，又能减少内存占用和推理速度。

Sep, 2023

滑动线点回归的形状鲁棒场景文本检测

本文提出了一种名为 SLPR 的新方法，用于在自然场景中检测任意形状的文本，可以适应许多目标检测体系结构，并在传统的 ICDAR2015 偶然场景文本基准和曲线文本检测数据集 CTW1500 上取得了竞争性的结果。

Jan, 2018

SPTS：单点文字定位

提出了一种新的场景文本识别方法，使用单点标注替代昂贵的边界框标注，将场景文本定位和识别视为序列预测任务，并使用自回归 Transformer 模型预测序列，可达到最先进的识别效果。

Dec, 2021

使用 Polygon-RNN 对物体实例进行注释

本文提出了一种半自动化的物体实例注释方法，通过多边形预测任务将对象分割，使人类标注者能够随时进行干预和纠正，从而实现更快速、更准确的注释过程。

Apr, 2017

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

只需边界：面向任意形状的文本识别

该论文提出了一个基于端到端文本检测的点定位方法，通过定位文本边界上的一组点，建立了一种简单而有效的方案，可读取任意形状的文本，并在 ICDAR2015，TotalText 和 COCO-Text 三个数据集上展开实验，实验结果表明，该方法在场景文本检测和端到端文本识别任务上均超过了现有技术水平。

Nov, 2019

TextRay: 基于轮廓的几何模型在任意形状场景文本检测中的应用

该研究提出了一种名为 TextRay 的任意形状文本检测方法，采用一次性无锚点框架中的自顶向下轮廓基准几何建模和几何参数学习，能够将复杂的几何布局编码为统一的表示，并输出仅经过一个 NMS 后处理的简单多边形检测。

Aug, 2020

基于渐进尺度扩张网络的形状稳健文本检测

本文介绍了一种名为 PSENet 的新型逐步缩放扩展网络，能够高精度检测任意形状的场景文字，该方法不仅能够解决任意形状文字的不准确问题，还能有效地解决邻近两个文本集实例合并等问题。

Mar, 2019

PGNet：基于点集聚合的任意形状实时文本检测网络

本文提出了全卷积的点聚集网络（PGNet）用于实时读取任意形状的文字，并且在减少 NMS 和 RoI 操作的同时，通过提出的 PG-CTC 损失对像素级别的字符分类图进行学习，避免使用字符级别注释。同时，通过建立字符与其相邻字符之间的联系，引入图形优化模块（GRM）以优化粗糙的识别并提高端到端性能。实验结果证明了所提出的方法具有竞争性的准确性，同时显著提高了运行速度。

Apr, 2021