通过旋转区域建议网络改善旋转文字检测

Nov, 2018

通过旋转区域建议网络改善旋转文字检测

Improving Rotated Text Detection with Rotation Region Proposal Networks

Jing Huang, Viswanath Sivakumar, Mher Mnatsakanyan, Guan Pang

TL;DR本研究旨在扩展 Facebook 的场景文本抽取系统 Rosetta，以有效处理社交媒体平台上的旋转文本，实现提取和识别旋转文本的模型的建立和部署。实验结果表明，这种改进对于检测旋转文本有着显著的提升效果。

Abstract

A significant number of images shared on social media platforms such as Facebook and Instagram contain text in various forms. It's increasingly becoming commonplace for bad actors to share misinformation, hate speech or other kinds of harmful content as text overlaid on images on such

scene-text understanding system text extraction rotation region proposal networks detecting rotated text social media

发现论文，激发创造

基于旋转建议的任意方向场景文字检测

本文介绍了一种新颖的基于旋转的框架，用于自然场景图像中的任意方向文本检测。我们提出了 Rotation Region Proposal Network（RRPN），它们设计用于生成倾斜的提议并提供文本方向角度信息，然后针对性地适应边界框回归，以更精确地适应文本区域。本框架建立在基于区域提议的体系结构之上，保证了与先前的文本检测系统相比，任意方向文本检测的计算效率。我们在三个真实世界的场景文本检测数据集上使用旋转平整的算法，并展示其在效果和效率方面的卓越性。

Mar, 2017

R2CNN：旋转区域 CNN 用于方向鲁棒的场景文本检测

本文提出了一种名为 R2CNN 的新方法，用于检测自然场景图像中的任意方向文本，基于 Faster R-CNN 架构，它使用区域提议网络（RPN）生成对不同方向的文本进行包围的对称边界框，为每个由 RPN 提出的对称文本框提取其不同池化大小的汇集特征并使用拼接的特征同时预测文本 / 非文本得分、对齐框和最小包含倾斜框，最后使用倾斜的非最大值抑制来获得检测结果，在文本检测基准测试 ICDAR 2015 和 ICDAR 2013 中取得了竞争性的结果。

Jun, 2017

旋转敏感回归用于定向场景文本检测

本文提出了一种名为旋转敏感回归检测器（RRD）的方法，旨在解决多方向文本探测器中存在的分类问题和面向文本方向的定位问题不相容的问题。该方法通过两个不同设计的网络分支提取具有不同特征的特征，具体地，通过旋转卷积过滤器提取旋转敏感特征的回归分支，通过池化旋转敏感特征提取旋转不变特征的分类分支。该方法在三个面向文本基准数据集上实现了最先进的性能，包括 ICDAR 2015、MSRA-TD500、RCTW-17 和 COCO-Text。并且在船舶收集数据集上对定位面向对象也取得了显著的进展，显示了该方法在面向对象检测方面的普适性。

Mar, 2018

Mask TextSpotter v3：面向鲁棒性场景文本检测的分割网络

该研究提出了一种名为 Mask TextSpotter v3 的新的场景文本识别算法，采用 Segmentation Proposal Network（SPN）代替 RPN，从而可以更准确和有效地识别和处理极端宽高比或不规则形状的文本实例，并且识别精度不会受到附近文本或背景噪声的干扰。在多个数据集上的实验中，该算法已实现最优性能。

Jul, 2020

DeepText: 自然图像文本提议生成和文本检测的统一框架

本文提出了一种名为 DeepText 的新型文本区域提案生成和文本检测的统一框架，通过卷积神经网络（CNN）实现。通过 Inception-RPN 提出区域提案，引入 ATC 信息和 MLRP 实现文本和非文本分类和准确定位，最终通过迭代边界框投票和筛选算法获得高的召回率。该方法在 ICDAR 2011 和 2013 的检测基准测试中取得了 F-measure 为 0.83 和 0.85 的优异结果，超过了以前的最新研究成果。

May, 2016

自适应文本区域表示的任意形状场景文本检测

提出了使用适应性文本区域表示的鲁棒场景文本检测方法，利用文本区域提案网络提取文本提案，再通过细化网络对提案进行验证和优化。实验结果在五个基准上表明，这种方法在场景文本检测方面达到了最先进水平。

May, 2019

TextNet：端到端训练的网络，用于从图像中读取不规则文本

提出了一种名为 TextNet 的端到端训练网络结构，能够同时从图像中定位和识别不规则文本，并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示，所提出的 TextNet 在标准基准上取得了最先进的性能，并且在不规则数据集上优于现有方法。

Dec, 2018

ContourNet: 迈向准确任意形状场景文本检测的更远一步

该论文提出了一种名为 ContourNet 的算法来解决场景文本检测中出现的误检和规模变化困难的问题，并通过 Adaptive Region Proposal Network 和 Local Orthogonal Texture-aware Module 两个模块达到了更为准确的任意形状文本检测。

Apr, 2020

一种基于 Faster R-CNN 的自由锚点区域提议网络用于文本检测方法

本论文提出了一种新的基于区域提案网络的方法来替换 Faster R-CNN 中的锚点机制，通过去除复杂的锚点设计，可以在大规模 COCO-Text 数据集上实现更高的召回率，并在 ICDAR-2017 MLT、ICDAR-2015 和 ICDAR-2013 文本检测基准测试中取得最先进的结果。

Apr, 2018

IncepText: 一种新的具有可变形 PSROI 池化的 Inception-Text 模块，用于多方位场景文本检测

从实例感知的角度出发，我们提出了一种新的端到端场景文本检测器 IncepText，利用 Inception-Text 模块和可变形 PSROI 池化处理多方向文本区域，实现在 ICDAR2015，RCTW-17 和 MSRA-TD500 数据集上取得了最先进性能的结果，并将其作为 OCR 产品开源。

May, 2018