重新思考不规则场景文本识别
本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法,只需要空间注意力而不需要矫正图像,仅使用卷积特征图作为单词嵌入输入到 transformer 中,并在大规模实验中取得了显著的优越性能。
Mar, 2020
本文提出一种基于对称约束的矫正网络(ScRN),利用文本实例的局部属性(如中心线、比例和方向)来生成更好的校正结果,从而实现对正常和不规则形状文本的高识别精度。该方法在包含相当比例的不规则文本实例的数据集(例如 ICDAR 2015、SVT-Perspective 和 CUTE80)上,优于现有算法。
Aug, 2019
本文提出了一种基于神经网络和 LSTM 等组件的简单强大的基线模型,用于识别自然场景图像中的不规则文本,基于单词级别的注释可获得最先进的性能表现。
Nov, 2018
本文提出了一种端到端训练的场景文本识别系统,该系统可以通过迭代去除透视畸变和文本弯曲,从而驱动更好的场景文本识别性能,其中采用一种创新的矩形化网络,该网络利用一种新颖的线拟合变换来估计场景中文本行的姿态,在此基础之上,开发了一种迭代的矩形化管道,其中场景文本失真被迭代地纠正到前方平行视图。
Dec, 2018
该研究提出了一种通过二维注意力机制将不规则文本转换为字符序列的框架,利用关系注意力模块和并行注意力模块提高识别精度和速度。实验证明该方法有效地识别文本,并在准确度和速度方面优于之前的方法。
Jun, 2019
我们提出了 RARE(具有自动矫正的强韧文本识别器),这是一种专门设计的深度神经网络,用于识别不规则文本,并能在多种基准测试上取得最先进或高度竞争性的表现。
Mar, 2016
提出了一种名为 TextNet 的端到端训练网络结构,能够同时从图像中定位和识别不规则文本,并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示,所提出的 TextNet 在标准基准上取得了最先进的性能,并且在不规则数据集上优于现有方法。
Dec, 2018
提出了使用适应性文本区域表示的鲁棒场景文本检测方法,利用文本区域提案网络提取文本提案,再通过细化网络对提案进行验证和优化。实验结果在五个基准上表明,这种方法在场景文本检测方面达到了最先进水平。
May, 2019
本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词,提出了任意形状的场景文本检测和识别系统 TextOCR,使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理,以达到新的 TextVQA 数据集上的最新性能水平。
May, 2021