通过边框语义意识和启动自举精确场景文本检测

ECCVJul, 2018

通过边框语义意识和启动自举精确场景文本检测

Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping

Chuhui Xue, Shijian Lu, Fangneng Zhan

TL;DR本研究提出了一种利用引导和文本边框语义的场景文本检测技术，以准确定位场景中的文本。通过多次对文本局部进行采样以有效缓解训练数据量有限的约束，提高了文本特征图的一致性；同时，设计了一种文本边界检测技术，通过生成每个场景文本的四种文本边框段，可以更准确地定位文本。本技术在多个公共数据集上展示了优异的表现。

Abstract

This paper presents a scene text detection technique that exploits bootstrapping and text border semantics for accurate →

scene text detection bootstrapping text border semantics semantics-aware text borders localization

发现论文，激发创造

基于整体、多通道预测的场景文字检测

该文提出了一种基于全局的语义分割方法来定位场景中的文本，使用单一的 FCN 模型估计文本属性，以同时处理水平，多方向和曲线文本，并在 ICDAR 2013、ICDAR 2015、MSRA-TD500 以及 COCO-Text 数据集上测试得到优于现有最先进方法的结果。

Jun, 2016

基于角点定位和区域分割的多方向场景文本检测

该论文提出了一种利用文本边框的角点定位和定位相对位置的文本区域分割方法，结合了一般性物体检测和文本区域分割的优点，避免了它们的缺点，并在 ICDAR2013，ICDAR2015，MSRA-TD500，MLT 和 COCO-Text 上进行了实验，得出了比以前更好或相当的结果。

Feb, 2018

EAST: 一种高效准确的场景文本检测器

本研究提出了一种简单而强大的场景文本检测流程，该流程可以直接预测全图中任意方向和四边形形状的单词或文本行，消除了不必要的中间步骤（例如候选聚合和单词划分），只需要一个神经网络进行操作，大大提升了检测的准确性和效率。

Apr, 2017

WordFence: 自然图像中带边框感知的文本检测

该论文提出了一种新的基于语义分割的场景图像中单词检测的架构，使用了 WordFence 的概念和像素加权的 softmax 损失函数来保证每个单词被独立检测，从而避免了后期处理，实现了一个端到端的单词检测系统。在常见的基准数据集上，该方法取得了较高的检测召回率，并且在 ICDAR13 数据集上实现了最先进的 86% F-score。

May, 2017

TextMountain：基于实例分割的准确场景文字检测

本文提出了一种名为 TextMountain 的新颖场景文本检测方法，它利用了边缘中心信息，通过预测文本中心边界概率（TCBP）和文本中心方向（TCD）来将文本实例分开，并能很好地处理多方向和曲线文本，实验表明该方法在准确性和效率方面都达到了更好或可比较的性能。

Nov, 2018

自然场景图像中的鲁棒文字检测

本文提出了一种准确和鲁棒性较高的文本检测方法，通过设计快速有效的剪枝算法，使用最小化正则化变化策略来提取极值区域，然后通过单链接聚类算法将字符候选分组为文本候选，在使用一种自学习距离度量算法自动学习距离权重和聚类算法的阈值来识别文本候选，并使用字符分类器估计相应的文本候选的后验概率来消除具有高概率的非文本文本候选，并最终识别出文本。通过实验结果证明，该方法的检测效果优于其他竞争方法。

Jan, 2013

实时场景文字检测的鲁棒性研究：从语义到实例表达学习

通过引入辅助任务，利用全局稠密语义对比和自上而下建模来联合学习鲁棒特征，从而实现更强大的实时场景文本检测。

Aug, 2023

逼真图像合成用于准确识别场景中的文本

通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计，提出了一种新的图像合成技术，用于生成大量标注数据，以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。

Jul, 2018

SEED: 场景文本识别的加强语义编码器 - 解码器框架

本研究提出了一种基于编码器 - 解码器框架的语义增强模型来识别低质量的场景文本，它使用显式的全局语义信息，并将现有的 ASTER 方法作为示例，实验证明了该模型对低质量文本图像更加鲁棒，并在多个基准数据集上取得了最先进的结果。

May, 2020

文本检测的字符区域认知

提出了一种使用神经网络 2 来检测场景文本的新方法，在字符级别推断文本区域，采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性，也解决了缺少单独字符级别注释的问题，在 6 个基准测试上广泛的实验中，包括在自然图像中包含高度曲线文本，如 TotalText 和 CTW-1500 数据集，证明了我们的字符级文本检测比最先进的探测器显着优越。根据结果，我们的方法保证了在检测复杂的场景文本图像（如任意定向，曲线或变形文本）方面具有高度的灵活性。

Apr, 2019