本文提出了基于注意力卷积网络的端到端场景文本识别方法,通过卷积神经网络 (CNN) 代替循环神经网络 (RNN) 来实现输入序列的上下文依赖关系的准确捕捉,提高了识别效率,并结合残余注意力模块进一步提高特征识别的准确性。该方法在多个数据集上验证结果显示了显著的性能优势。
Sep, 2017
采用二维视角,提出了基于字符注意力全卷积网络的场景文本识别算法,该算法在语义分割网络中采用了字符注意机制和词形成模块,在不失精度的情况下更具有鲁棒性。
Sep, 2018
使用深度文本递归网络(DTRN)进行场景文本识别,包含顺序标记问题,卷积神经网络,长短时记忆 lstm 模型,具有高度的识别准确率,对于高度不确定的单词具有可靠性等优点。
Jun, 2015
本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统,并通过多层和丰富的监督信息,包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终,该方法在 ICDAR 2013 数据集上取得了很好的效果。
Oct, 2015
本文提出了一种无词典的场景图像文本识别方法,该方法基于一种基于 LSTM 的软视觉注意模型,该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量,实现了对空间信息的编码,从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外,我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果,以标准的 SVT 和 ICDAR'03 场景文本数据集为基础,证明了我们方法在无约束文本识别中的卓越表现。
Jun, 2017
本文提出了一种新颖的神经网络架构,将特征提取、序列建模和转录集成到统一框架中,用于场景文本识别,相比现有算法其具有端到端训练,不需要一定的词典限制,更加适合实际应用等优点,在标准测试数据上展现出更好的性能。
Jul, 2015
本文提出了一种基于 Semantic Segmentation 和 RNN-attention 的新方法 TextScanner,用于场景中的文字识别,并在标准基准数据集上得到了最佳结果,尤其是在中文识别方面。
Dec, 2019
该文提出了一种基于全局的语义分割方法来定位场景中的文本,使用单一的 FCN 模型估计文本属性,以同时处理水平,多方向和曲线文本,并在 ICDAR 2013、ICDAR 2015、MSRA-TD500 以及 COCO-Text 数据集上测试得到优于现有最先进方法的结果。
Jun, 2016
本研究提出了一种基于 ConvLSTM 的场景文本识别器,名为 FACLSTM,该识别器充分利用像素的空间关联和注意机制,通过卷积操作和生成字符中心掩码来帮助聚焦关注正确的特征区域,并在基准数据集 IIIT5K、SVT 和 CUTE 上得到了较好的实验结果。
Apr, 2019
本文提出了 CharNet 模型,是一种单阶段模型,能够同时处理文本检测和识别,输出包围框和对应字符标签,并采用迭代式字符检测方法,在三个标准基准测试中表现出对现有方法显著的性能改进。
Oct, 2019