自然场景图像中的鲁棒文字检测

Jan, 2013

Robust Text Detection in Natural Scene Images

Xu-Cheng Yin, Xuwang Yin, Kaizhu Huang, Hong-Wei Hao

TL;DR本文提出了一种准确和鲁棒性较高的文本检测方法，通过设计快速有效的剪枝算法，使用最小化正则化变化策略来提取极值区域，然后通过单链接聚类算法将字符候选分组为文本候选，在使用一种自学习距离度量算法自动学习距离权重和聚类算法的阈值来识别文本候选，并使用字符分类器估计相应的文本候选的后验概率来消除具有高概率的非文本文本候选，并最终识别出文本。通过实验结果证明，该方法的检测效果优于其他竞争方法。

Abstract

text detection in natural scene images is an important prerequisite for many content-based image analysis tasks. In this paper, we propose an accurate and robust method for detecting texts in →

text detection natural scene images character candidates self-training distance icdar

发现论文，激发创造

多语言自然场景文本检测算法研究

我们提出了一种多语言文本检测模型，通过引入 SFM Swin Transformer 特征提取网络、AS-HRFPN 特征融合网络和全局语义分割分支，改进了对自然场景中多语言文本的检测准确性和难度，实验结果表明该算法 F-measure 值为 85.02%，比基准模型高出 4.71%。

Dec, 2023

EAST: 一种高效准确的场景文本检测器

本研究提出了一种简单而强大的场景文本检测流程，该流程可以直接预测全图中任意方向和四边形形状的单词或文本行，消除了不必要的中间步骤（例如候选聚合和单词划分），只需要一个神经网络进行操作，大大提升了检测的准确性和效率。

Apr, 2017

本地字符细化技术的高效场景文本定位和识别

提出了一种无限制端到端的文本定位和识别方法，采用基于区域的方法在单次检测中检测初始文本假设，并通过更强大的局部文本模型对文本假设进行优化。此外，引入了一种基于字符笔画面积估计的新特征，并使用区域距离图有效计算该特征，该特征不受缩放和旋转的影响，并允许有效地检测任何文本区域。该方法能实时运行并在 ICDAR 2013 Robust Reading 数据集上实现了最先进的文本定位和识别结果。

Apr, 2015

基于整体、多通道预测的场景文字检测

该文提出了一种基于全局的语义分割方法来定位场景中的文本，使用单一的 FCN 模型估计文本属性，以同时处理水平，多方向和曲线文本，并在 ICDAR 2013、ICDAR 2015、MSRA-TD500 以及 COCO-Text 数据集上测试得到优于现有最先进方法的结果。

Jun, 2016

基于文本注意力的卷积神经网络用于场景文本检测

本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统，并通过多层和丰富的监督信息，包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终，该方法在 ICDAR 2013 数据集上取得了很好的效果。

Oct, 2015

文本检测的字符区域认知

提出了一种使用神经网络 2 来检测场景文本的新方法，在字符级别推断文本区域，采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性，也解决了缺少单独字符级别注释的问题，在 6 个基准测试上广泛的实验中，包括在自然图像中包含高度曲线文本，如 TotalText 和 CTW-1500 数据集，证明了我们的字符级文本检测比最先进的探测器显着优越。根据结果，我们的方法保证了在检测复杂的场景文本图像（如任意定向，曲线或变形文本）方面具有高度的灵活性。

Apr, 2019

基于角点定位和区域分割的多方向场景文本检测

该论文提出了一种利用文本边框的角点定位和定位相对位置的文本区域分割方法，结合了一般性物体检测和文本区域分割的优点，避免了它们的缺点，并在 ICDAR2013，ICDAR2015，MSRA-TD500，MLT 和 COCO-Text 上进行了实验，得出了比以前更好或相当的结果。

Feb, 2018

基于显式位置增强的鲁棒场景文本图像超分辨率

本研究提出了一种名称为 LEMMA 的新方法，通过显式建模字符区域，生成具有高级文本特定引导的超分辨率图像，通过位置增强模块和多模态对齐模块提升字符区域的特征提取和视觉 - 语义对齐，并使用自适应融合模块将先验引导无缝融合到超分辨率分支中。在 TextZoom 和四个场景文本识别基准测试上的实验证明了本方法相对于其他最先进技术的优越性。

Jul, 2023

利用机器学习技术促进不发达语言的发展：乌尔都语文本检测进展

本文开发了一个带有乌尔都文本的情景图像数据集，并提出使用机器学习方法从这些图像中检测乌尔都文本的方法，包括通过 MSER 方法提取文本区域、利用 SVM 分类器筛选非文本区域、HoG 特征训练第二个 SVM 分类器来进一步提高文本区域检测的性能。最终目的是为乌尔都文本检测研究提供数据资源，并突出该领域的挑战和研究空白。

Sep, 2022

自然场景图像中的统一文本检测系统

该研究提出了一种名为 Text Flow 的统一场景文本检测系统，该系统使用了最小成本（min-cost）流网络模型，通过将字符候选检测、文本行提取和文本行验证三个步骤集成到一个过程中，从而有效地解决了误差累积问题，并在 ICDAR2011，ICDAR2013 和多语种数据集上都实现了比现有技术更高的检测精度。

Apr, 2016