自然场景图像中的鲁棒文字检测
我们提出了一种多语言文本检测模型,通过引入 SFM Swin Transformer 特征提取网络、AS-HRFPN 特征融合网络和全局语义分割分支,改进了对自然场景中多语言文本的检测准确性和难度,实验结果表明该算法 F-measure 值为 85.02%,比基准模型高出 4.71%。
Dec, 2023
本研究提出了一种简单而强大的场景文本检测流程,该流程可以直接预测全图中任意方向和四边形形状的单词或文本行,消除了不必要的中间步骤(例如候选聚合和单词划分),只需要一个神经网络进行操作,大大提升了检测的准确性和效率。
Apr, 2017
提出了一种无限制端到端的文本定位和识别方法,采用基于区域的方法在单次检测中检测初始文本假设,并通过更强大的局部文本模型对文本假设进行优化。此外,引入了一种基于字符笔画面积估计的新特征,并使用区域距离图有效计算该特征,该特征不受缩放和旋转的影响,并允许有效地检测任何文本区域。该方法能实时运行并在 ICDAR 2013 Robust Reading 数据集上实现了最先进的文本定位和识别结果。
Apr, 2015
该文提出了一种基于全局的语义分割方法来定位场景中的文本,使用单一的 FCN 模型估计文本属性,以同时处理水平,多方向和曲线文本,并在 ICDAR 2013、ICDAR 2015、MSRA-TD500 以及 COCO-Text 数据集上测试得到优于现有最先进方法的结果。
Jun, 2016
本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统,并通过多层和丰富的监督信息,包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终,该方法在 ICDAR 2013 数据集上取得了很好的效果。
Oct, 2015
提出了一种使用神经网络 2 来检测场景文本的新方法,在字符级别推断文本区域,采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性,也解决了缺少单独字符级别注释的问题,在 6 个基准测试上广泛的实验中,包括在自然图像中包含高度曲线文本,如 TotalText 和 CTW-1500 数据集,证明了我们的字符级文本检测比最先进的探测器显着优越。根据结果,我们的方法保证了在检测复杂的场景文本图像(如任意定向,曲线或变形文本)方面具有高度的灵活性。
Apr, 2019
该论文提出了一种利用文本边框的角点定位和定位相对位置的文本区域分割方法,结合了一般性物体检测和文本区域分割的优点,避免了它们的缺点,并在 ICDAR2013,ICDAR2015,MSRA-TD500,MLT 和 COCO-Text 上进行了实验,得出了比以前更好或相当的结果。
Feb, 2018
本研究提出了一种名称为 LEMMA 的新方法,通过显式建模字符区域,生成具有高级文本特定引导的超分辨率图像,通过位置增强模块和多模态对齐模块提升字符区域的特征提取和视觉 - 语义对齐,并使用自适应融合模块将先验引导无缝融合到超分辨率分支中。在 TextZoom 和四个场景文本识别基准测试上的实验证明了本方法相对于其他最先进技术的优越性。
Jul, 2023
本文开发了一个带有乌尔都文本的情景图像数据集,并提出使用机器学习方法从这些图像中检测乌尔都文本的方法,包括通过 MSER 方法提取文本区域、利用 SVM 分类器筛选非文本区域、HoG 特征训练第二个 SVM 分类器来进一步提高文本区域检测的性能。最终目的是为乌尔都文本检测研究提供数据资源,并突出该领域的挑战和研究空白。
Sep, 2022
该研究提出了一种名为 Text Flow 的统一场景文本检测系统,该系统使用了最小成本(min-cost)流网络模型,通过将字符候选检测、文本行提取和文本行验证三个步骤集成到一个过程中,从而有效地解决了误差累积问题,并在 ICDAR2011,ICDAR2013 和多语种数据集上都实现了比现有技术更高的检测精度。
Apr, 2016