AON:面向任意方向的文本识别
本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词,提出了任意形状的场景文本检测和识别系统 TextOCR,使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理,以达到新的 TextVQA 数据集上的最新性能水平。
May, 2021
提出了一种名为 TextNet 的端到端训练网络结构,能够同时从图像中定位和识别不规则文本,并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示,所提出的 TextNet 在标准基准上取得了最先进的性能,并且在不规则数据集上优于现有方法。
Dec, 2018
本文提出了一种用于识别不规则文本的多对象校正注意网络(MORAN),其中包含多对象校正网络和基于注意力的序列识别网络,用于进行弱监督学习,可以有效地识别场景文字,取得了最先进的性能。
Jan, 2019
本文提出一种基于对称约束的矫正网络(ScRN),利用文本实例的局部属性(如中心线、比例和方向)来生成更好的校正结果,从而实现对正常和不规则形状文本的高识别精度。该方法在包含相当比例的不规则文本实例的数据集(例如 ICDAR 2015、SVT-Perspective 和 CUTE80)上,优于现有算法。
Aug, 2019
本文提出一种无分割 OCR 系统,该系统将深度学习方法、数据增强方法和合成训练数据结合起来,使用大型文本语料库和 2000 多种字体渲染合成训练数据,并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境,并采用 CNN 编码器以提取文本图像特征,检验了序列模型与卷积模型在模拟输入元素交互方面的能力。
Jun, 2019
该研究提出了一种使用全卷积神经网络对自然图像中的文本进行检测的新方法,通过综合考虑本地和全局线索,以分层的方式定位文本线。通过组合显著地图和字符组件来估计文本行假设,并使用另一个卷积神经网络分类器预测每个字符的质心,以去除误判。该方法适用于处理多个方向、语言和字体的文本。在三个文本检测基准测试 MSRA-TD500、ICDAR2015 和 ICDAR2013 的性能方面,该方法实现了最先进的性能。
Apr, 2016
本研究提出一种基于全局特征引导注意力的二维卷积神经网络和序列解码器来识别场景文本的简单但强大方法,训练时仅使用单词级别的注释,相比循环神经网络,能够在前向和后向传递中获得 1.3x 至 9.4x 不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。
Apr, 2019
本文介绍了一种新颖的基于旋转的框架,用于自然场景图像中的任意方向文本检测。我们提出了 Rotation Region Proposal Network(RRPN),它们设计用于生成倾斜的提议并提供文本方向角度信息,然后针对性地适应边界框回归,以更精确地适应文本区域。本框架建立在基于区域提议的体系结构之上,保证了与先前的文本检测系统相比,任意方向文本检测的计算效率。我们在三个真实世界的场景文本检测数据集上使用旋转平整的算法,并展示其在效果和效率方面的卓越性。
Mar, 2017