朝着无约束的端到端文本检测

ICCVAug, 2019

Towards Unconstrained End-to-End Text Spotting

Siyang Qin, Alessandro Bissacco, Michalis Raptis, Yasuhisa Fujii, Ying Xiao

TL;DR一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Abstract

We propose an end-to-end trainable network that can simultaneously detect and recognize text of arbitrary shape, making substantial progress on the open problem of reading scene text of irregular shape. We formulate arbitrary shape text detection as an →

text detection instance segmentation attention model ocr curved text

发现论文，激发创造

只需边界：面向任意形状的文本识别

该论文提出了一个基于端到端文本检测的点定位方法，通过定位文本边界上的一组点，建立了一种简单而有效的方案，可读取任意形状的文本，并在 ICDAR2015，TotalText 和 COCO-Text 三个数据集上展开实验，实验结果表明，该方法在场景文本检测和端到端文本识别任务上均超过了现有技术水平。

Nov, 2019

Text Perceptron: 面向端到端任意形状文本检测

本文提出了一种名为 Text Perceptron 的端到端可训练文本检测方法，利用基于分割的高效检测器和新颖的形状变换模块，实现了文本检测和识别部分的全局优化，取得了在多个基准测试数据集上的优异性能表现。

Feb, 2020

自然场景下端到端文本识别

该研究提出了一种统一的网络，同时定位和识别文本，通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别，避免了中间过程，取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。

Jun, 2019

TextNet：端到端训练的网络，用于从图像中读取不规则文本

提出了一种名为 TextNet 的端到端训练网络结构，能够同时从图像中定位和识别不规则文本，并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示，所提出的 TextNet 在标准基准上取得了最先进的性能，并且在不规则数据集上优于现有方法。

Dec, 2018

Mask TextSpotter：一种端到端可训练神经网络，用于检测任意形状的文本

本文提出了一种名为 Mask TextSpotter 的针对场景文本定位和识别问题的端到端训练的神经网络模型，并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上进行了实验，展现出在场景文本检测和端到端文本识别任务方面的最新水平。

Jul, 2018

自适应文本区域表示的任意形状场景文本检测

提出了使用适应性文本区域表示的鲁棒场景文本检测方法，利用文本区域提案网络提取文本提案，再通过细化网络对提案进行验证和优化。实验结果在五个基准上表明，这种方法在场景文本检测方面达到了最先进水平。

May, 2019

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021

TextRay: 基于轮廓的几何模型在任意形状场景文本检测中的应用

该研究提出了一种名为 TextRay 的任意形状文本检测方法，采用一次性无锚点框架中的自顶向下轮廓基准几何建模和几何参数学习，能够将复杂的几何布局编码为统一的表示，并输出仅经过一个 NMS 后处理的简单多边形检测。

Aug, 2020

一种端到端的文本识别器：显式对齐与注意力机制

该研究提出了一种简单有效的框架，可以同时处理文字检测和识别，其中利用了新颖的文本对齐层、字符空间信息作为显式监督和端到端可训练的模型。通过联合培训，该方法在两个数据集上实现了新的最先进检测性能和表现提高。

Mar, 2018

再看一眼：朝着更紧密的任意形状文本检测

提出了一种基于深度学习的两阶段文本检测器 NASK，采用实例分割技术，通过 GSCA 模块、RoI Pooling 和 FOX 模块，能够更精确地定位和还原任意形状、不同大小、存在转角的文本，并在公共基准测试数据集上取得了最先进的结果。

Apr, 2020