场景文本检测的自适应分割网络
本文提出了一种基于 Feature Pyramid Network 和实例分割的模型,准确定位文本区域的同时抑制了虚警,实验结果表明该模型在场景文本检测方面表现优于现有方法。
Nov, 2018
本文提出了一种新的多方位场景文本检测的模型,将多级特征融合到特征提取中,将文本实例一起检测和分割,该方法有效地结合了语义分割和基于区域提议的目标检测任务,实现了在多方位场景文本检测基准测试 ICDAR2015 Incidental Scene Text 和 MSRA-TD500 上的超越,达到了分别 84.1% 和 82.0% 的 Hmean 值。
Sep, 2017
我们提出了一种多语言文本检测模型,通过引入 SFM Swin Transformer 特征提取网络、AS-HRFPN 特征融合网络和全局语义分割分支,改进了对自然场景中多语言文本的检测准确性和难度,实验结果表明该算法 F-measure 值为 85.02%,比基准模型高出 4.71%。
Dec, 2023
该论文提出了一种名为 Pixel-Anchor 的新型神经网络框架,它通过特征共享和锚点级别的注意机制结合了语义分割和 SSD 来检测方向场景文本,并在公共数据集上取得了优异的文本定位准确度和运行速度。
Nov, 2018
本文提出了一种经过改进的场景文本检测器,它包含一个新颖的特征增强网络(FEN)和适应性加权的定位敏感 RoI 池层,以提高对小型场景文本的检测精度,同时,也提出了一种有效的样本平衡策略来训练我们的网络,并在 ICDAR 2011 和 2013 鲁棒文本检测基准测试中得到了最先进的结果。
Nov, 2017
本文提出了一种高效准确的任意形状文本检测器 Pixel Aggregation Network (PAN),它配备了低计算成本的分割头和可学习的后处理,其中分割头由 Feature Pyramid Enhancement Module (FPEM) 和 Feature Fusion Module (FFM) 组成。通过预测相似向量准确地聚合文本像素的像素聚合 (PA) 实现可学习后处理。同时,该方法在几个标准基准测试中取得了优异的表现。
Aug, 2019
本文提出了一种简单而有效的基于变压器的场景文本检测模型,该模型通过选取几个代表性特征进行文本检测,借助变压器模型建模其特征之间的关系,实现将文本实例划分为合理的组,并轻易地获得其边界框,从而在多个数据集上取得了最新的成果。
Mar, 2022
本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统,并通过多层和丰富的监督信息,包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终,该方法在 ICDAR 2013 数据集上取得了很好的效果。
Oct, 2015
本研究提出了一种用于场景文本检测的新算法,其中提出了一组策略来显着提高文本定位的质量。具体而言,提出了一种文本特征对齐模块(TFAM),用于根据初始原始检测动态调整特征的感受域;设计了一种位置感知非极大值抑制模块(PA-NMS)来选择性地集中于可靠的原始检测,排除不可靠的检测,此外还提出了一种实例 IoU 损失来平衡针对不同比例的文本实例的训练。通过广泛的消融研究,证明了所提出策略的有效性和优越性。最终,将这些策略与业内领先的场景文本检测器 EAST 集成,实现了在保持快速运行速度的同时,达到了各种标准文本检测基准上的最新或有竞争力的性能。
Apr, 2021