少胜于全：场景文本检测的特征采样和分组

CVPRMar, 2022

少胜于全：场景文本检测的特征采样和分组

Few Could Be Better Than All: Feature Sampling and Grouping for Scene Text Detection

Jingqun Tang, Wenqing Zhang, Hongye Liu, MingKun Yang, Bo Jiang...

TL;DR本文提出了一种简单而有效的基于变压器的场景文本检测模型，该模型通过选取几个代表性特征进行文本检测，借助变压器模型建模其特征之间的关系，实现将文本实例划分为合理的组，并轻易地获得其边界框，从而在多个数据集上取得了最新的成果。

Abstract

Recently, transformer-based methods have achieved promising progresses in object detection, as they can eliminate the post-processes like NMS and enrich the deep representations. However, these methods cannot well cope with scene text due to its extreme variance of scales and aspect ratios. In this paper, we present a simple yet effective →

transformer-based architecture scene text detection representative features bounding box state-of-the-art results

发现论文，激发创造

基于 Transformer 的场景文本识别

本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法，只需要空间注意力而不需要矫正图像，仅使用卷积特征图作为单词嵌入输入到 transformer 中，并在大规模实验中取得了显著的优越性能。

Mar, 2020

场景文本检测的自适应分割网络

基于深度卷积分割算法的场景文本检测器通过学习判别性分割阈值和设计全局信息增强特征金字塔网络，实现了对具有极端长宽比的文本实例的有效检测和自适应分割，为场景文本检测提供了最新的性能表现。

Jul, 2023

多语言自然场景文本检测算法研究

我们提出了一种多语言文本检测模型，通过引入 SFM Swin Transformer 特征提取网络、AS-HRFPN 特征融合网络和全局语义分割分支，改进了对自然场景中多语言文本的检测准确性和难度，实验结果表明该算法 F-measure 值为 85.02%，比基准模型高出 4.71%。

Dec, 2023

MOST: 一种用于多方向场景文本检测的本地化精炼方法

本研究提出了一种用于场景文本检测的新算法，其中提出了一组策略来显着提高文本定位的质量。具体而言，提出了一种文本特征对齐模块（TFAM），用于根据初始原始检测动态调整特征的感受域；设计了一种位置感知非极大值抑制模块（PA-NMS）来选择性地集中于可靠的原始检测，排除不可靠的检测，此外还提出了一种实例 IoU 损失来平衡针对不同比例的文本实例的训练。通过广泛的消融研究，证明了所提出策略的有效性和优越性。最终，将这些策略与业内领先的场景文本检测器 EAST 集成，实现了在保持快速运行速度的同时，达到了各种标准文本检测基准上的最新或有竞争力的性能。

Apr, 2021

MixNet: 在野外准确检测具挑战性场景文本的研究

MixNet 是一种综合 CNN 和 Transformer 优势的混合架构，能够准确地检测小文本，不受方向、风格和光照条件的影响。MixNet 通过 Feature Shuffle Network（FSNet）和 Central Transformer Block（CTBlock）两个关键模块实现，其中 FSNet 通过特征重排策略生成高分辨率特征，优于 ResNet 和 HRNet；CTBlock 基于中心线特征，在小文本紧密出现时优于基于轮廓的方法。大量实验证明，MixNet 在多个场景文本检测数据集上实现了最先进的结果。

Aug, 2023

实时场景文字检测的鲁棒性研究：从语义到实例表达学习

通过引入辅助任务，利用全局稠密语义对比和自上而下建模来联合学习鲁棒特征，从而实现更强大的实时场景文本检测。

Aug, 2023

基于文本注意力的卷积神经网络用于场景文本检测

本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统，并通过多层和丰富的监督信息，包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终，该方法在 ICDAR 2013 数据集上取得了很好的效果。

Oct, 2015

使用监督金字塔上下文网络进行场景文本检测

本文提出了一种基于 Feature Pyramid Network 和实例分割的模型，准确定位文本区域的同时抑制了虚警，实验结果表明该模型在场景文本检测方面表现优于现有方法。

Nov, 2018

EAST: 一种高效准确的场景文本检测器

本研究提出了一种简单而强大的场景文本检测流程，该流程可以直接预测全图中任意方向和四边形形状的单词或文本行，消除了不必要的中间步骤（例如候选聚合和单词划分），只需要一个神经网络进行操作，大大提升了检测的准确性和效率。

Apr, 2017

基于角点定位和区域分割的多方向场景文本检测

该论文提出了一种利用文本边框的角点定位和定位相对位置的文本区域分割方法，结合了一般性物体检测和文本区域分割的优点，避免了它们的缺点，并在 ICDAR2013，ICDAR2015，MSRA-TD500，MLT 和 COCO-Text 上进行了实验，得出了比以前更好或相当的结果。

Feb, 2018