该论文总结了场景文本识别的基本问题和最新技术,提供了相关资源,指出了未来的研究方向。
May, 2020
该文提出了一种基于全局的语义分割方法来定位场景中的文本,使用单一的 FCN 模型估计文本属性,以同时处理水平,多方向和曲线文本,并在 ICDAR 2013、ICDAR 2015、MSRA-TD500 以及 COCO-Text 数据集上测试得到优于现有最先进方法的结果。
Jun, 2016
本文系统地介绍了 160 多篇文献中深度学习在遥感图像场景分类中的应用,包括自编码器、卷积神经网络和生成对抗网络等方面,总结了在三个常用数据集上的代表性算法的性能以及未来的研究前景。
本文提出了 SEE,一个用于自然场景文本检测和识别的半监督神经网络,它能够通过端到端的优化方式实现。相较于现有的多个深度神经网络和多个预处理步骤,SEE 提出了使用单一的深度神经网络的方案,该网络能够学习从自然图像中检测和识别文本,同时我们介绍了我们的新方法并在标准基准数据集上进行了一系列实验,证明了我们方案的可行性以及达到了与现有技术相比的竞争性结果。
Dec, 2017
本文综合调查了目前使用深度学习进行视觉对象检测的最新进展,特别关注了三个主要方面:检测组件、学习策略和应用与基准,并讨论了许多影响检测性能的因素。
Aug, 2019
本文提出了一种新颖的神经网络架构,将特征提取、序列建模和转录集成到统一框架中,用于场景文本识别,相比现有算法其具有端到端训练,不需要一定的词典限制,更加适合实际应用等优点,在标准测试数据上展现出更好的性能。
Jul, 2015
本研究着重于自然图像中文字的检测和识别,使用基于卡车上的摄像机捕捉图像的方法,利用 Tesseract OCR 引擎来识别检测到的文字区域。研究中讨论了测试中出现的一个重要的假阳性情况并阐述了缓解该问题的策略。最终,该项目实现了超过 80%的正确字符识别率,并概述了开发阶段、主要挑战和一些有趣的发现。
Apr, 2020
该论文提出了一种基于多模式 CNN 的场景识别新方法,结合图像和上下文信息,通过注意力机制来强化学习和增强场景的辨别能力,实验证明该方法性能超过所有现有的先进方法,并显著减少了网络参数。
Sep, 2019
本文旨在概述深度学习算法在计算机视觉领域的应用,包括图像分类,目标识别,图像提取和语义分割等方面,同时讨论了构建和训练深度神经网络面临的未来范围和挑战。
Apr, 2018
本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词,提出了任意形状的场景文本检测和识别系统 TextOCR,使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理,以达到新的 TextVQA 数据集上的最新性能水平。
May, 2021