重新思考不规则场景文本识别

Aug, 2019

Rethinking Irregular Scene Text Recognition

Shangbang Long, Yushuo Guan, Bingxuan Wang, Kaigui Bian, Cong Yao

TL;DR本文介绍了基于矩形化的文字识别方法的一些技巧，使其在曲线文本数据集上表现出色，并在 ICDAR 2019 任意形状文本挑战中获得了较高的准确性。

Abstract

Reading text from natural images is challenging due to the great variety in text font, color, size, complex background and etc.. The perspective distortion and non-linear spatial arrangement of characters make it further difficult. While rectification based method is intuitively ground

text recognition image processing rectification

发现论文，激发创造

基于 Transformer 的场景文本识别

本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法，只需要空间注意力而不需要矫正图像，仅使用卷积特征图作为单词嵌入输入到 transformer 中，并在大规模实验中取得了显著的优越性能。

Mar, 2020

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

基于对称约束的场景文本矫正网络

本文提出一种基于对称约束的矫正网络（ScRN），利用文本实例的局部属性（如中心线、比例和方向）来生成更好的校正结果，从而实现对正常和不规则形状文本的高识别精度。该方法在包含相当比例的不规则文本实例的数据集（例如 ICDAR 2015、SVT-Perspective 和 CUTE80）上，优于现有算法。

Aug, 2019

展示、关注、阅读：一种用于不规则文本识别的简单、强大基线

本文提出了一种基于神经网络和 LSTM 等组件的简单强大的基线模型，用于识别自然场景图像中的不规则文本，基于单词级别的注释可获得最先进的性能表现。

Nov, 2018

通过迭代图像校正的端到端场景文本识别

本文提出了一种端到端训练的场景文本识别系统，该系统可以通过迭代去除透视畸变和文本弯曲，从而驱动更好的场景文本识别性能，其中采用一种创新的矩形化网络，该网络利用一种新颖的线拟合变换来估计场景中文本行的姿态，在此基础之上，开发了一种迭代的矩形化管道，其中场景文本失真被迭代地纠正到前方平行视图。

Dec, 2018

2D 基于注意力机制的不规则场景文字识别器

该研究提出了一种通过二维注意力机制将不规则文本转换为字符序列的框架，利用关系注意力模块和并行注意力模块提高识别精度和速度。实验证明该方法有效地识别文本，并在准确度和速度方面优于之前的方法。

Jun, 2019

自动矫正的鲁棒场景文本识别

我们提出了 RARE（具有自动矫正的强韧文本识别器），这是一种专门设计的深度神经网络，用于识别不规则文本，并能在多种基准测试上取得最先进或高度竞争性的表现。

Mar, 2016

TextNet：端到端训练的网络，用于从图像中读取不规则文本

提出了一种名为 TextNet 的端到端训练网络结构，能够同时从图像中定位和识别不规则文本，并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示，所提出的 TextNet 在标准基准上取得了最先进的性能，并且在不规则数据集上优于现有方法。

Dec, 2018

自适应文本区域表示的任意形状场景文本检测

提出了使用适应性文本区域表示的鲁棒场景文本检测方法，利用文本区域提案网络提取文本提案，再通过细化网络对提案进行验证和优化。实验结果在五个基准上表明，这种方法在场景文本检测方面达到了最先进水平。

May, 2019

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021