少胜于全:场景文本检测的特征采样和分组
本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法,只需要空间注意力而不需要矫正图像,仅使用卷积特征图作为单词嵌入输入到 transformer 中,并在大规模实验中取得了显著的优越性能。
Mar, 2020
基于深度卷积分割算法的场景文本检测器通过学习判别性分割阈值和设计全局信息增强特征金字塔网络,实现了对具有极端长宽比的文本实例的有效检测和自适应分割,为场景文本检测提供了最新的性能表现。
Jul, 2023
我们提出了一种多语言文本检测模型,通过引入 SFM Swin Transformer 特征提取网络、AS-HRFPN 特征融合网络和全局语义分割分支,改进了对自然场景中多语言文本的检测准确性和难度,实验结果表明该算法 F-measure 值为 85.02%,比基准模型高出 4.71%。
Dec, 2023
本研究提出了一种用于场景文本检测的新算法,其中提出了一组策略来显着提高文本定位的质量。具体而言,提出了一种文本特征对齐模块(TFAM),用于根据初始原始检测动态调整特征的感受域;设计了一种位置感知非极大值抑制模块(PA-NMS)来选择性地集中于可靠的原始检测,排除不可靠的检测,此外还提出了一种实例 IoU 损失来平衡针对不同比例的文本实例的训练。通过广泛的消融研究,证明了所提出策略的有效性和优越性。最终,将这些策略与业内领先的场景文本检测器 EAST 集成,实现了在保持快速运行速度的同时,达到了各种标准文本检测基准上的最新或有竞争力的性能。
Apr, 2021
MixNet 是一种综合 CNN 和 Transformer 优势的混合架构,能够准确地检测小文本,不受方向、风格和光照条件的影响。MixNet 通过 Feature Shuffle Network(FSNet)和 Central Transformer Block(CTBlock)两个关键模块实现,其中 FSNet 通过特征重排策略生成高分辨率特征,优于 ResNet 和 HRNet;CTBlock 基于中心线特征,在小文本紧密出现时优于基于轮廓的方法。大量实验证明,MixNet 在多个场景文本检测数据集上实现了最先进的结果。
Aug, 2023
本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统,并通过多层和丰富的监督信息,包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终,该方法在 ICDAR 2013 数据集上取得了很好的效果。
Oct, 2015
本文提出了一种基于 Feature Pyramid Network 和实例分割的模型,准确定位文本区域的同时抑制了虚警,实验结果表明该模型在场景文本检测方面表现优于现有方法。
Nov, 2018
本研究提出了一种简单而强大的场景文本检测流程,该流程可以直接预测全图中任意方向和四边形形状的单词或文本行,消除了不必要的中间步骤(例如候选聚合和单词划分),只需要一个神经网络进行操作,大大提升了检测的准确性和效率。
Apr, 2017
该论文提出了一种利用文本边框的角点定位和定位相对位置的文本区域分割方法,结合了一般性物体检测和文本区域分割的优点,避免了它们的缺点,并在 ICDAR2013,ICDAR2015,MSRA-TD500,MLT 和 COCO-Text 上进行了实验,得出了比以前更好或相当的结果。
Feb, 2018