基于字符锚点池化的场景文本识别灵活特征获取新视角
本研究提出了一种用于场景文本检测的新算法,其中提出了一组策略来显着提高文本定位的质量。具体而言,提出了一种文本特征对齐模块(TFAM),用于根据初始原始检测动态调整特征的感受域;设计了一种位置感知非极大值抑制模块(PA-NMS)来选择性地集中于可靠的原始检测,排除不可靠的检测,此外还提出了一种实例 IoU 损失来平衡针对不同比例的文本实例的训练。通过广泛的消融研究,证明了所提出策略的有效性和优越性。最终,将这些策略与业内领先的场景文本检测器 EAST 集成,实现了在保持快速运行速度的同时,达到了各种标准文本检测基准上的最新或有竞争力的性能。
Apr, 2021
本文提出了一种高效准确的任意形状文本检测器 Pixel Aggregation Network (PAN),它配备了低计算成本的分割头和可学习的后处理,其中分割头由 Feature Pyramid Enhancement Module (FPEM) 和 Feature Fusion Module (FFM) 组成。通过预测相似向量准确地聚合文本像素的像素聚合 (PA) 实现可学习后处理。同时,该方法在几个标准基准测试中取得了优异的表现。
Aug, 2019
本研究将文本检测和识别模块融合,并采用基于注意力机制的解码器,通过利用角色评分图来更好地关注字符中心点,实现了一种紧密耦合的单管道模型,扩展了开放式直线和曲线基准数据集的最新性能。
Jul, 2020
提出了一种名为 Class-Aware Mask-guided feature refinement(CAM)的新方法来改善复杂背景、文本样式噪声等方面对场景文本识别的挑战,并通过标准字体生成规范的类感知字形掩码来增强特征区分性、设计特征对齐和融合模块来进一步提升文本识别的特征细化。在六个标准文本识别基准测试中,CAM 展示出优于先进方法的优势,平均性能提高了 4.1%,并且使用较小的模型尺寸。该研究强调了在鲁棒场景文本识别中融入规范的掩码指导和对齐特征细化技术的重要性。
Feb, 2024
提出了一种使用神经网络 2 来检测场景文本的新方法,在字符级别推断文本区域,采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性,也解决了缺少单独字符级别注释的问题,在 6 个基准测试上广泛的实验中,包括在自然图像中包含高度曲线文本,如 TotalText 和 CTW-1500 数据集,证明了我们的字符级文本检测比最先进的探测器显着优越。根据结果,我们的方法保证了在检测复杂的场景文本图像(如任意定向,曲线或变形文本)方面具有高度的灵活性。
Apr, 2019
从实例感知的角度出发,我们提出了一种新的端到端场景文本检测器 IncepText,利用 Inception-Text 模块和可变形 PSROI 池化处理多方向文本区域,实现在 ICDAR2015,RCTW-17 和 MSRA-TD500 数据集上取得了最先进性能的结果,并将其作为 OCR 产品开源。
May, 2018
本研究提出了一种名为 MANGO 的新型文本识别模型,其采用遮罩注意力指导的一阶段文本识别框架,可以直接识别无需 ROI 操作的字符序列,并在不同角度、不同排列方式的文本定位任务中取得了新的最优表现。
Dec, 2020
该研究提出了一种统一的网络,同时定位和识别文本,通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别,避免了中间过程,取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。
Jun, 2019