该研究提出了一种简单有效的框架,可以同时处理文字检测和识别,其中利用了新颖的文本对齐层、字符空间信息作为显式监督和端到端可训练的模型。通过联合培训,该方法在两个数据集上实现了新的最先进检测性能和表现提高。
Mar, 2018
该研究提出了一种统一的网络,同时定位和识别文本,通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别,避免了中间过程,取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。
Jun, 2019
提出了一种使用神经网络 2 来检测场景文本的新方法,在字符级别推断文本区域,采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性,也解决了缺少单独字符级别注释的问题,在 6 个基准测试上广泛的实验中,包括在自然图像中包含高度曲线文本,如 TotalText 和 CTW-1500 数据集,证明了我们的字符级文本检测比最先进的探测器显着优越。根据结果,我们的方法保证了在检测复杂的场景文本图像(如任意定向,曲线或变形文本)方面具有高度的灵活性。
Apr, 2019
本研究提出了一种名为 MANGO 的新型文本识别模型,其采用遮罩注意力指导的一阶段文本识别框架,可以直接识别无需 ROI 操作的字符序列,并在不同角度、不同排列方式的文本定位任务中取得了新的最优表现。
Dec, 2020
本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架,并通过一种新的识别转换机制,在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位,从而使该方法在多种数据集上显著优于现有方法。
Mar, 2022
本研究提出了一种新颖的单步文字检测器,该检测器直接在自然图像中输出单词级别的边界框。通过自动学习的注意力映射,我们提出了一种注意机制,粗略地识别文本区域。此外,我们还开发了分层 Inception 模块,可以有效地聚合多尺度 Inception 特征,从而使该检测器能够可靠地在单尺度图像上处理多尺度和多方向文本。我们的文本检测器在 ICDAR 2015 基准测试中取得了 77%的 F-measure,超越了先前研究的最新成果。
Sep, 2017
本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统,并通过多层和丰富的监督信息,包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终,该方法在 ICDAR 2013 数据集上取得了很好的效果。
Oct, 2015
一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容,并使用多步光学字符识别引擎提高识别准确性,大幅度领先现有模型的准确性。
Aug, 2019
本文提出了一种无词典的场景图像文本识别方法,该方法基于一种基于 LSTM 的软视觉注意模型,该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量,实现了对空间信息的编码,从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外,我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果,以标准的 SVT 和 ICDAR'03 场景文本数据集为基础,证明了我们方法在无约束文本识别中的卓越表现。
Jun, 2017
本文提出了一种基于 Semantic Segmentation 和 RNN-attention 的新方法 TextScanner,用于场景中的文字识别,并在标准基准数据集上得到了最佳结果,尤其是在中文识别方面。
Dec, 2019