基于角点定位和区域分割的多方向场景文本检测
该文提出了一种基于全局的语义分割方法来定位场景中的文本,使用单一的 FCN 模型估计文本属性,以同时处理水平,多方向和曲线文本,并在 ICDAR 2013、ICDAR 2015、MSRA-TD500 以及 COCO-Text 数据集上测试得到优于现有最先进方法的结果。
Jun, 2016
本文提出了一种新的多方位场景文本检测的模型,将多级特征融合到特征提取中,将文本实例一起检测和分割,该方法有效地结合了语义分割和基于区域提议的目标检测任务,实现了在多方位场景文本检测基准测试 ICDAR2015 Incidental Scene Text 和 MSRA-TD500 上的超越,达到了分别 84.1% 和 82.0% 的 Hmean 值。
Sep, 2017
本研究提出了一种简单而强大的场景文本检测流程,该流程可以直接预测全图中任意方向和四边形形状的单词或文本行,消除了不必要的中间步骤(例如候选聚合和单词划分),只需要一个神经网络进行操作,大大提升了检测的准确性和效率。
Apr, 2017
研究通过直接回归预测物体边界偏移量,提高了多方向场景文本检测的效率,并且通过全卷积网络和单步后处理实现了高性能的检测框架。在 ICDAR2015 测序中,本文方法的 F1 得分为 81%,在其他标准数据集中也达到了最先进的性能。
Mar, 2017
本研究提出了一种用于场景文本检测的新算法,其中提出了一组策略来显着提高文本定位的质量。具体而言,提出了一种文本特征对齐模块(TFAM),用于根据初始原始检测动态调整特征的感受域;设计了一种位置感知非极大值抑制模块(PA-NMS)来选择性地集中于可靠的原始检测,排除不可靠的检测,此外还提出了一种实例 IoU 损失来平衡针对不同比例的文本实例的训练。通过广泛的消融研究,证明了所提出策略的有效性和优越性。最终,将这些策略与业内领先的场景文本检测器 EAST 集成,实现了在保持快速运行速度的同时,达到了各种标准文本检测基准上的最新或有竞争力的性能。
Apr, 2021
该研究提出了一种使用全卷积神经网络对自然图像中的文本进行检测的新方法,通过综合考虑本地和全局线索,以分层的方式定位文本线。通过组合显著地图和字符组件来估计文本行假设,并使用另一个卷积神经网络分类器预测每个字符的质心,以去除误判。该方法适用于处理多个方向、语言和字体的文本。在三个文本检测基准测试 MSRA-TD500、ICDAR2015 和 ICDAR2013 的性能方面,该方法实现了最先进的性能。
Apr, 2016
提出了一种使用神经网络 2 来检测场景文本的新方法,在字符级别推断文本区域,采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性,也解决了缺少单独字符级别注释的问题,在 6 个基准测试上广泛的实验中,包括在自然图像中包含高度曲线文本,如 TotalText 和 CTW-1500 数据集,证明了我们的字符级文本检测比最先进的探测器显着优越。根据结果,我们的方法保证了在检测复杂的场景文本图像(如任意定向,曲线或变形文本)方面具有高度的灵活性。
Apr, 2019
本文提出了一种名为旋转敏感回归检测器(RRD)的方法,旨在解决多方向文本探测器中存在的分类问题和面向文本方向的定位问题不相容的问题。该方法通过两个不同设计的网络分支提取具有不同特征的特征,具体地,通过旋转卷积过滤器提取旋转敏感特征的回归分支,通过池化旋转敏感特征提取旋转不变特征的分类分支。该方法在三个面向文本基准数据集上实现了最先进的性能,包括 ICDAR 2015、MSRA-TD500、RCTW-17 和 COCO-Text。并且在船舶收集数据集上对定位面向对象也取得了显著的进展,显示了该方法在面向对象检测方面的普适性。
Mar, 2018
提出了使用适应性文本区域表示的鲁棒场景文本检测方法,利用文本区域提案网络提取文本提案,再通过细化网络对提案进行验证和优化。实验结果在五个基准上表明,这种方法在场景文本检测方面达到了最先进水平。
May, 2019
通过自我监督场景文本分割算法,基于对象为中心的分割方式将图像分割为文本和背景层,改进网络对文本的敏感性,以解决像素级标签和合成数据集的问题,取得了比现有算法更好的效果。
Aug, 2023