通过旋转区域建议网络改善旋转文字检测
本文介绍了一种新颖的基于旋转的框架,用于自然场景图像中的任意方向文本检测。我们提出了 Rotation Region Proposal Network(RRPN),它们设计用于生成倾斜的提议并提供文本方向角度信息,然后针对性地适应边界框回归,以更精确地适应文本区域。本框架建立在基于区域提议的体系结构之上,保证了与先前的文本检测系统相比,任意方向文本检测的计算效率。我们在三个真实世界的场景文本检测数据集上使用旋转平整的算法,并展示其在效果和效率方面的卓越性。
Mar, 2017
本文提出了一种名为 R2CNN 的新方法,用于检测自然场景图像中的任意方向文本,基于 Faster R-CNN 架构,它使用区域提议网络(RPN)生成对不同方向的文本进行包围的对称边界框,为每个由 RPN 提出的对称文本框提取其不同池化大小的汇集特征并使用拼接的特征同时预测文本 / 非文本得分、对齐框和最小包含倾斜框,最后使用倾斜的非最大值抑制来获得检测结果,在文本检测基准测试 ICDAR 2015 和 ICDAR 2013 中取得了竞争性的结果。
Jun, 2017
本文提出了一种名为旋转敏感回归检测器(RRD)的方法,旨在解决多方向文本探测器中存在的分类问题和面向文本方向的定位问题不相容的问题。该方法通过两个不同设计的网络分支提取具有不同特征的特征,具体地,通过旋转卷积过滤器提取旋转敏感特征的回归分支,通过池化旋转敏感特征提取旋转不变特征的分类分支。该方法在三个面向文本基准数据集上实现了最先进的性能,包括 ICDAR 2015、MSRA-TD500、RCTW-17 和 COCO-Text。并且在船舶收集数据集上对定位面向对象也取得了显著的进展,显示了该方法在面向对象检测方面的普适性。
Mar, 2018
该研究提出了一种名为 Mask TextSpotter v3 的新的场景文本识别算法,采用 Segmentation Proposal Network(SPN)代替 RPN,从而可以更准确和有效地识别和处理极端宽高比或不规则形状的文本实例,并且识别精度不会受到附近文本或背景噪声的干扰。在多个数据集上的实验中,该算法已实现最优性能。
Jul, 2020
本文提出了一种名为 DeepText 的新型文本区域提案生成和文本检测的统一框架,通过卷积神经网络(CNN)实现。通过 Inception-RPN 提出区域提案,引入 ATC 信息和 MLRP 实现文本和非文本分类和准确定位,最终通过迭代边界框投票和筛选算法获得高的召回率。该方法在 ICDAR 2011 和 2013 的检测基准测试中取得了 F-measure 为 0.83 和 0.85 的优异结果,超过了以前的最新研究成果。
May, 2016
提出了使用适应性文本区域表示的鲁棒场景文本检测方法,利用文本区域提案网络提取文本提案,再通过细化网络对提案进行验证和优化。实验结果在五个基准上表明,这种方法在场景文本检测方面达到了最先进水平。
May, 2019
提出了一种名为 TextNet 的端到端训练网络结构,能够同时从图像中定位和识别不规则文本,并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示,所提出的 TextNet 在标准基准上取得了最先进的性能,并且在不规则数据集上优于现有方法。
Dec, 2018
该论文提出了一种名为 ContourNet 的算法来解决场景文本检测中出现的误检和规模变化困难的问题,并通过 Adaptive Region Proposal Network 和 Local Orthogonal Texture-aware Module 两个模块达到了更为准确的任意形状文本检测。
Apr, 2020
本论文提出了一种新的基于区域提案网络的方法来替换 Faster R-CNN 中的锚点机制,通过去除复杂的锚点设计,可以在大规模 COCO-Text 数据集上实现更高的召回率,并在 ICDAR-2017 MLT、ICDAR-2015 和 ICDAR-2013 文本检测基准测试中取得最先进的结果。
Apr, 2018
从实例感知的角度出发,我们提出了一种新的端到端场景文本检测器 IncepText,利用 Inception-Text 模块和可变形 PSROI 池化处理多方向文本区域,实现在 ICDAR2015,RCTW-17 和 MSRA-TD500 数据集上取得了最先进性能的结果,并将其作为 OCR 产品开源。
May, 2018