滑动线点回归的形状鲁棒场景文本检测

Jan, 2018

滑动线点回归的形状鲁棒场景文本检测

Sliding Line Point Regression for Shape Robust Scene Text Detection

Yixing Zhu, Jun Du

TL;DR本文提出了一种名为 SLPR 的新方法，用于在自然场景中检测任意形状的文本，可以适应许多目标检测体系结构，并在传统的 ICDAR2015 偶然场景文本基准和曲线文本检测数据集 CTW1500 上取得了竞争性的结果。

Abstract

Traditional text detection methods mostly focus on quadrangle text. In this study we propose a novel method named sliding line point regression (SLPR) in order to detect →

text detection arbitrary-shape text sliding line point regression object detection icdar2015

发现论文，激发创造

MSR: 多尺度形状回归在场景文本检测中的应用

本文提出了一种新的多尺度形状回归网络（MSR），能够在场景中定位不同长度、形状和曲率的文本行，并通过预测密集的文本边界点来探测场景文本，具有较高的文本行长度变化容忍度。此外，该多尺度网络对不同尺度的特征提取及融合表现出优异的容忍度，实验结果显示，在曲线和直线不同长度及取向的场景中，所提出的 MSR 算法具备优越的探测性能。

Jan, 2019

深度直接回归用于多方向场景文本检测

研究通过直接回归预测物体边界偏移量，提高了多方向场景文本检测的效率，并且通过全卷积网络和单步后处理实现了高性能的检测框架。在 ICDAR2015 测序中，本文方法的 F1 得分为 81％，在其他标准数据集中也达到了最先进的性能。

Mar, 2017

从单点到多边形的场景文本渐进式演变

通过使用合成的识别信息，我们提出了 Point2Polygon 方法，将单点标注高效地转换为紧凑的多边形，并通过广泛实验证明了生成多边形的准确性。

Dec, 2023

自适应文本区域表示的任意形状场景文本检测

提出了使用适应性文本区域表示的鲁棒场景文本检测方法，利用文本区域提案网络提取文本提案，再通过细化网络对提案进行验证和优化。实验结果在五个基准上表明，这种方法在场景文本检测方面达到了最先进水平。

May, 2019

低秩逼近网络高效准确的场景文字检测

提出了一种名为 LRANet 的文本检测器，该方法基于双重匹配方案用于正样本，利用低秩近似的文本轮廓表示方法来处理不规则形状文本，提高速度与准确性，并在三个数据集上展示了该方法的比较优越性。

Jun, 2023

SPTS v2：单点场景文本检测

本文提出了 SPTS v2 框架，采用单点注释作为代替传统文本检测与识别的昂贵手工注释方法。采用基于自回归 Transformer 的 IAD 对同一预测序列内所有文本实例的中心点进行预测，采用 PRD 进行文本识别。详细实验结果证明该方法可超越现有单点文本定位器的性能而实现 14 倍更快的推断速度。同时，实验还进一步展示了单点注释比非点注释和多边形边界框更为适合场景文本识别。

Jan, 2023

TP-LSD：基于三点的线段检测器

本研究提出了一种新型的深度卷积模型 TP-LSD，采用三点表示法用于图像线段检测，并通过定义新的评估指标以 Wireframe 和 YorkUrban 数据集为基础，验证其运行速度高达每秒 78 帧，具有竞争性的准确性和结构先验。

Sep, 2020

旋转敏感回归用于定向场景文本检测

本文提出了一种名为旋转敏感回归检测器（RRD）的方法，旨在解决多方向文本探测器中存在的分类问题和面向文本方向的定位问题不相容的问题。该方法通过两个不同设计的网络分支提取具有不同特征的特征，具体地，通过旋转卷积过滤器提取旋转敏感特征的回归分支，通过池化旋转敏感特征提取旋转不变特征的分类分支。该方法在三个面向文本基准数据集上实现了最先进的性能，包括 ICDAR 2015、MSRA-TD500、RCTW-17 和 COCO-Text。并且在船舶收集数据集上对定位面向对象也取得了显著的进展，显示了该方法在面向对象检测方面的普适性。

Mar, 2018

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

Box2Poly: 内存高效多边形预测任意形状和旋转文本

通过使用 Sparse R-CNN 中的级联解码流程进行多边形预测，我们提出了一种创新的方法来解决基于 Transformer 的文本检测技术中的挑战，既能提高精度，又能减少内存占用和推理速度。

Sep, 2023