基于字符锚点池化的场景文本识别灵活特征获取新视角

Feb, 2020

基于字符锚点池化的场景文本识别灵活特征获取新视角

A New Perspective for Flexible Feature Gathering in Scene Text Recognition Via Character Anchor Pooling

Shangbang Long, Yushuo Guan, Kaigui Bian, Cong Yao

TL;DR提出了一对耦合模块，即 Character Anchoring Module（CAM）和 Anchor Pooling Module（APM），用于从二维空间中提取高级语义以形成特征序列并获得序列学习，通过此提出的模块，在不规则和不同角度场景中对文本进行了识别，并在 ICDAR 2015 数据集上超越了先前的最高分数。

Abstract

irregular scene text recognition has attracted much attention from the research community, mainly due to the complexity of shapes of text in natural scene. However, recent methods either rely on shape-sensitive modules such as bounding box regression, or discard →

irregular scene text recognition character anchoring module anchor pooling module sequence learning icdar 2015

发现论文，激发创造

MOST: 一种用于多方向场景文本检测的本地化精炼方法

本研究提出了一种用于场景文本检测的新算法，其中提出了一组策略来显着提高文本定位的质量。具体而言，提出了一种文本特征对齐模块（TFAM），用于根据初始原始检测动态调整特征的感受域；设计了一种位置感知非极大值抑制模块（PA-NMS）来选择性地集中于可靠的原始检测，排除不可靠的检测，此外还提出了一种实例 IoU 损失来平衡针对不同比例的文本实例的训练。通过广泛的消融研究，证明了所提出策略的有效性和优越性。最终，将这些策略与业内领先的场景文本检测器 EAST 集成，实现了在保持快速运行速度的同时，达到了各种标准文本检测基准上的最新或有竞争力的性能。

Apr, 2021

基于像素聚合网络的高效准确任意形状文本检测

本文提出了一种高效准确的任意形状文本检测器 Pixel Aggregation Network (PAN)，它配备了低计算成本的分割头和可学习的后处理，其中分割头由 Feature Pyramid Enhancement Module (FPEM) 和 Feature Fusion Module (FFM) 组成。通过预测相似向量准确地聚合文本像素的像素聚合 (PA) 实现可学习后处理。同时，该方法在几个标准基准测试中取得了优异的表现。

Aug, 2019

字符区域关注网络用于文本检测

本研究将文本检测和识别模块融合，并采用基于注意力机制的解码器，通过利用角色评分图来更好地关注字符中心点，实现了一种紧密耦合的单管道模型，扩展了开放式直线和曲线基准数据集的最新性能。

Jul, 2020

基于类别感知的文本场景识别的掩膜引导特征细化

提出了一种名为 Class-Aware Mask-guided feature refinement（CAM）的新方法来改善复杂背景、文本样式噪声等方面对场景文本识别的挑战，并通过标准字体生成规范的类感知字形掩码来增强特征区分性、设计特征对齐和融合模块来进一步提升文本识别的特征细化。在六个标准文本识别基准测试中，CAM 展示出优于先进方法的优势，平均性能提高了 4.1％，并且使用较小的模型尺寸。该研究强调了在鲁棒场景文本识别中融入规范的掩码指导和对齐特征细化技术的重要性。

Feb, 2024

文本检测的字符区域认知

提出了一种使用神经网络 2 来检测场景文本的新方法，在字符级别推断文本区域，采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性，也解决了缺少单独字符级别注释的问题，在 6 个基准测试上广泛的实验中，包括在自然图像中包含高度曲线文本，如 TotalText 和 CTW-1500 数据集，证明了我们的字符级文本检测比最先进的探测器显着优越。根据结果，我们的方法保证了在检测复杂的场景文本图像（如任意定向，曲线或变形文本）方面具有高度的灵活性。

Apr, 2019

从二维视角进行场景文本识别

采用二维视角，提出了基于字符注意力全卷积网络的场景文本识别算法，该算法在语义分割网络中采用了字符注意机制和词形成模块，在不失精度的情况下更具有鲁棒性。

Sep, 2018

IncepText: 一种新的具有可变形 PSROI 池化的 Inception-Text 模块，用于多方位场景文本检测

从实例感知的角度出发，我们提出了一种新的端到端场景文本检测器 IncepText，利用 Inception-Text 模块和可变形 PSROI 池化处理多方向文本区域，实现在 ICDAR2015，RCTW-17 和 MSRA-TD500 数据集上取得了最先进性能的结果，并将其作为 OCR 产品开源。

May, 2018

MANGO: 一种基于掩膜注意力引导的一阶段场景文本识别器

本研究提出了一种名为 MANGO 的新型文本识别模型，其采用遮罩注意力指导的一阶段文本识别框架，可以直接识别无需 ROI 操作的字符序列，并在不同角度、不同排列方式的文本定位任务中取得了新的最优表现。

Dec, 2020

PAN++：高效准确的任意形状文本端到端定位

本文提出了一个基于核心表示的端到端文本发现框架，可在自然场景中检测和识别任意形状的文本，并取得了竞争性的精度和高速度。

May, 2021

自然场景下端到端文本识别

该研究提出了一种统一的网络，同时定位和识别文本，通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别，避免了中间过程，取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。

Jun, 2019