文本区域多信息感知网络用于场景文本检测

Jan, 2024

文本区域多信息感知网络用于场景文本检测

Text Region Multiple Information Perception Network for Scene Text Detection

Jinzhi Zheng, Libo Zhang, Yanjun Wu, Chen Zhao

TL;DR该论文介绍了一种称为区域多信息感知模块（RMIPM）的即插即用模块，可以增强基于分割的算法的检测性能，多种类型的信息可以感知到场景文本区域，实验证明与最先进的算法相比，该方法具有可比较的性能。

Abstract

segmentation-based scene text detection algorithms can handle arbitrary shape scene texts and have strong robustness and →

segmentation-based scene text detection robustness adaptability region multiple information perception module

发现论文，激发创造

MOST: 一种用于多方向场景文本检测的本地化精炼方法

本研究提出了一种用于场景文本检测的新算法，其中提出了一组策略来显着提高文本定位的质量。具体而言，提出了一种文本特征对齐模块（TFAM），用于根据初始原始检测动态调整特征的感受域；设计了一种位置感知非极大值抑制模块（PA-NMS）来选择性地集中于可靠的原始检测，排除不可靠的检测，此外还提出了一种实例 IoU 损失来平衡针对不同比例的文本实例的训练。通过广泛的消融研究，证明了所提出策略的有效性和优越性。最终，将这些策略与业内领先的场景文本检测器 EAST 集成，实现了在保持快速运行速度的同时，达到了各种标准文本检测基准上的最新或有竞争力的性能。

Apr, 2021

自适应文本区域表示的任意形状场景文本检测

提出了使用适应性文本区域表示的鲁棒场景文本检测方法，利用文本区域提案网络提取文本提案，再通过细化网络对提案进行验证和优化。实验结果在五个基准上表明，这种方法在场景文本检测方面达到了最先进水平。

May, 2019

IncepText: 一种新的具有可变形 PSROI 池化的 Inception-Text 模块，用于多方位场景文本检测

从实例感知的角度出发，我们提出了一种新的端到端场景文本检测器 IncepText，利用 Inception-Text 模块和可变形 PSROI 池化处理多方向文本区域，实现在 ICDAR2015，RCTW-17 和 MSRA-TD500 数据集上取得了最先进性能的结果，并将其作为 OCR 产品开源。

May, 2018

基于整体、多通道预测的场景文字检测

该文提出了一种基于全局的语义分割方法来定位场景中的文本，使用单一的 FCN 模型估计文本属性，以同时处理水平，多方向和曲线文本，并在 ICDAR 2013、ICDAR 2015、MSRA-TD500 以及 COCO-Text 数据集上测试得到优于现有最先进方法的结果。

Jun, 2016

基于角点定位和区域分割的多方向场景文本检测

该论文提出了一种利用文本边框的角点定位和定位相对位置的文本区域分割方法，结合了一般性物体检测和文本区域分割的优点，避免了它们的缺点，并在 ICDAR2013，ICDAR2015，MSRA-TD500，MLT 和 COCO-Text 上进行了实验，得出了比以前更好或相当的结果。

Feb, 2018

自然场景图像中的鲁棒文字检测

本文提出了一种准确和鲁棒性较高的文本检测方法，通过设计快速有效的剪枝算法，使用最小化正则化变化策略来提取极值区域，然后通过单链接聚类算法将字符候选分组为文本候选，在使用一种自学习距离度量算法自动学习距离权重和聚类算法的阈值来识别文本候选，并使用字符分类器估计相应的文本候选的后验概率来消除具有高概率的非文本文本候选，并最终识别出文本。通过实验结果证明，该方法的检测效果优于其他竞争方法。

Jan, 2013

用于多方向场景文本检测的融合文本分割网络

本文提出了一种新的多方位场景文本检测的模型，将多级特征融合到特征提取中，将文本实例一起检测和分割，该方法有效地结合了语义分割和基于区域提议的目标检测任务，实现了在多方位场景文本检测基准测试 ICDAR2015 Incidental Scene Text 和 MSRA-TD500 上的超越，达到了分别 84.1% 和 82.0% 的 Hmean 值。

Sep, 2017

多语言自然场景文本检测算法研究

我们提出了一种多语言文本检测模型，通过引入 SFM Swin Transformer 特征提取网络、AS-HRFPN 特征融合网络和全局语义分割分支，改进了对自然场景中多语言文本的检测准确性和难度，实验结果表明该算法 F-measure 值为 85.02%，比基准模型高出 4.71%。

Dec, 2023

深层匹配先验网络：朝向更紧凑的多向文本检测

本文提出了一种基于卷积神经网络的新方法 Deep Matching Prior Network，通过使用四边形滑动窗口和快速计算多边形区域的共享蒙特卡罗方法来检测具有更紧致四边形的场景文本。本方法的性能在公共场景文本数据集上进行了评估，表现出比现有的 state-of-the-art 方法更好的 F-measure 值。

Mar, 2017

PixelLink: 通过实例分割检测场景文字

本文介绍了一种基于实例分割的场景文本检测算法 PixelLink，该算法通过像素链接将文本实例区分出来，并直接从分割结果中提取文本边界框，相比于依赖于边界框回归的算法，PixelLink 不仅性能更优，而且需要更少的训练迭代次数和数据量。

Jan, 2018