AON：面向任意方向的文本识别

CVPRNov, 2017

AON: Towards Arbitrarily-Oriented Text Recognition

Zhanzhan Cheng, Yangliu Xu, Fan Bai, Yi Niu, Shiliang Pu...

TL;DR本文介绍了一种用于识别自然图像中非规则排列文字的新方法，称为任意方向网络（AON），它采用深度学习技术和注意力解码器来生成字符序列，并在多个数据集上取得了最新的性能。

Abstract

Recognizing text from natural images is a hot research topic in computer vision due to its various applications. Despite the enduring research of several decades on optical character recognition (OCR), recognizing texts from natural images is still a challenging task. This is because scene texts are often in irregular (e.g. curved, arbitrarily-oriented or se

text recognition computer vision deep learning irregular text aon

发现论文，激发创造

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021

TextNet：端到端训练的网络，用于从图像中读取不规则文本

提出了一种名为 TextNet 的端到端训练网络结构，能够同时从图像中定位和识别不规则文本，并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示，所提出的 TextNet 在标准基准上取得了最先进的性能，并且在不规则数据集上优于现有方法。

Dec, 2018

多目标矫正注意力网络用于场景文字识别

本文提出了一种用于识别不规则文本的多对象校正注意网络（MORAN），其中包含多对象校正网络和基于注意力的序列识别网络，用于进行弱监督学习，可以有效地识别场景文字，取得了最先进的性能。

Jan, 2019

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

场景图像中的无方向中文文本识别

利用字符图像重建网络（CIRN）对纵向中文文本进行识别，通过分离内容和方向信息，提高自然场景中横向和纵向文本的识别性能。

Sep, 2023

基于对称约束的场景文本矫正网络

本文提出一种基于对称约束的矫正网络（ScRN），利用文本实例的局部属性（如中心线、比例和方向）来生成更好的校正结果，从而实现对正常和不规则形状文本的高识别精度。该方法在包含相当比例的不规则文本实例的数据集（例如 ICDAR 2015、SVT-Perspective 和 CUTE80）上，优于现有算法。

Aug, 2019

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

基于全卷积网络的多方向文本检测

该研究提出了一种使用全卷积神经网络对自然图像中的文本进行检测的新方法，通过综合考虑本地和全局线索，以分层的方式定位文本线。通过组合显著地图和字符组件来估计文本行假设，并使用另一个卷积神经网络分类器预测每个字符的质心，以去除误判。该方法适用于处理多个方向、语言和字体的文本。在三个文本检测基准测试 MSRA-TD500、ICDAR2015 和 ICDAR2013 的性能方面，该方法实现了最先进的性能。

Apr, 2016

基于整体表征的引导注意力网络用于场景文字识别

本研究提出一种基于全局特征引导注意力的二维卷积神经网络和序列解码器来识别场景文本的简单但强大方法，训练时仅使用单词级别的注释，相比循环神经网络，能够在前向和后向传递中获得 1.3x 至 9.4x 不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。

Apr, 2019

基于旋转建议的任意方向场景文字检测

本文介绍了一种新颖的基于旋转的框架，用于自然场景图像中的任意方向文本检测。我们提出了 Rotation Region Proposal Network（RRPN），它们设计用于生成倾斜的提议并提供文本方向角度信息，然后针对性地适应边界框回归，以更精确地适应文本区域。本框架建立在基于区域提议的体系结构之上，保证了与先前的文本检测系统相比，任意方向文本检测的计算效率。我们在三个真实世界的场景文本检测数据集上使用旋转平整的算法，并展示其在效果和效率方面的卓越性。

Mar, 2017