MorphText：深度形态规范任意形状场景文本检测

Apr, 2024

MorphText：深度形态规范任意形状场景文本检测

MorphText: Deep Morphology Regularized Arbitrary-shape Scene Text Detection

Chengpei Xu, Wenjing Jia, Ruomei Wang, Xiaonan Luo, Xiangjian He

TL;DR利用深度形态学和深度形态开合模块解决文本部分误检测和建立文本连接的问题，提出了一种名为“MorphText”的新方法，实验证明它在任意形状场景文本检测方面优于现有的自上而下和自下而上方法。

Abstract

bottom-up text detection methods play an important role in arbitrary-shape scene text detection but there are two restrictions preventing them from achieving their great potential, i.e., 1) the accumulation of fa

发现论文，激发创造

Total-Text: 一份全面的用于场景文本检测和识别的数据集

该研究论文主要介绍了一个新的数据集 Total-Text，该数据集包括水平、多向和曲线方向的文本，旨在填补现有文本数据集对于曲线文字方向的空缺，并对该数据集进行了基于 DeconvNet 的曲线文字检测方法的评估。

Oct, 2017

TextSnake：一种灵活的文本表示方式，用于检测任意形状的文本

该论文提出了一种能够有效表示包括水平的，有方向的和有曲率的文本实例的文本表示方法TextSnake，并使用基于TextSnake的文本检测器，在多个数据集上取得了最先进的性能表现，特别是在曲线文本上。

Jul, 2018

学习用于不规则场景文本检测的深度方向场

本文基于深度学习提出了一种名为TextField的新型文本检测器，通过学习每个文本点指向离其最近文本边界的方向向量进行检测，克服了目前普通文本检测器在检测曲线文本时的限制，其在多个数据集上表现非常优越。

Dec, 2018

多看一眼：一种针对任意形状文本的准确检测器

用LOMO（即Look More Than Once）方法解决了传统的场景文本检测方法中受限于CNN的感受野和简单的形状描述方法在处理长文本和任意形状文本时的不足，该方法包含直接回归器（DR）、迭代细化模块（IRM）和形状表达模块（SEM），最终的实验结果印证了LOMO方法的鲁棒性和有效性。

Apr, 2019

自适应文本区域表示的任意形状场景文本检测

提出了使用适应性文本区域表示的鲁棒场景文本检测方法，利用文本区域提案网络提取文本提案，再通过细化网络对提案进行验证和优化。实验结果在五个基准上表明，这种方法在场景文本检测方面达到了最先进水平。

May, 2019

基于像素聚合网络的高效准确任意形状文本检测

本文提出了一种高效准确的任意形状文本检测器Pixel Aggregation Network (PAN)，它配备了低计算成本的分割头和可学习的后处理，其中分割头由 Feature Pyramid Enhancement Module (FPEM) 和Feature Fusion Module (FFM) 组成。通过预测相似向量准确地聚合文本像素的像素聚合 (PA) 实现可学习后处理。同时，该方法在几个标准基准测试中取得了优异的表现。

Aug, 2019

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

只需边界：面向任意形状的文本识别

该论文提出了一个基于端到端文本检测的点定位方法，通过定位文本边界上的一组点，建立了一种简单而有效的方案，可读取任意形状的文本，并在ICDAR2015，TotalText和COCO-Text三个数据集上展开实验，实验结果表明，该方法在场景文本检测和端到端文本识别任务上均超过了现有技术水平。

Nov, 2019

Text Perceptron: 面向端到端任意形状文本检测

本文提出了一种名为Text Perceptron的端到端可训练文本检测方法，利用基于分割的高效检测器和新颖的形状变换模块，实现了文本检测和识别部分的全局优化，取得了在多个基准测试数据集上的优异性能表现。

Feb, 2020

再看一眼：朝着更紧密的任意形状文本检测

提出了一种基于深度学习的两阶段文本检测器NASK，采用实例分割技术，通过GSCA模块、RoI Pooling和FOX模块，能够更精确地定位和还原任意形状、不同大小、存在转角的文本，并在公共基准测试数据集上取得了最先进的结果。

Apr, 2020