野外场景中的文本识别:一项调查
通过多透视的分析,该研究综述了视觉文本处理领域的最新进展,从文本图像增强和恢复到文本图像操作的层次性分类,再到不同学习范式。同时,讨论了如何将特定的文本特征,如结构、笔画、语义、风格和空间背景,无缝地整合到各种任务中,并在几个广泛使用的数据集上对方法进行了测试和评估。最后,确定了未来研究的主要挑战和潜在途径,旨在确立该综述作为一个基础资源,促进视觉文本处理领域的持续探索和创新。
Feb, 2024
本研究着重于自然图像中文字的检测和识别,使用基于卡车上的摄像机捕捉图像的方法,利用 Tesseract OCR 引擎来识别检测到的文字区域。研究中讨论了测试中出现的一个重要的假阳性情况并阐述了缓解该问题的策略。最终,该项目实现了超过 80%的正确字符识别率,并概述了开发阶段、主要挑战和一些有趣的发现。
Apr, 2020
该文提出了一种基于全局的语义分割方法来定位场景中的文本,使用单一的 FCN 模型估计文本属性,以同时处理水平,多方向和曲线文本,并在 ICDAR 2013、ICDAR 2015、MSRA-TD500 以及 COCO-Text 数据集上测试得到优于现有最先进方法的结果。
Jun, 2016
本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词,提出了任意形状的场景文本检测和识别系统 TextOCR,使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理,以达到新的 TextVQA 数据集上的最新性能水平。
May, 2021
该技术报告介绍了 ICDAR 2015 年 TRW2015 竞赛的最终结果,该竞赛旨在为设计用于中英文脚本的检测和识别算法提供基准,并为社区的研究人员提供一个游戏场。本文详细描述了数据集,任务,评估协议和参与者,报告了参与方法的性能,并讨论了未来研究的有前途的方向。
Jun, 2015
本文提出了一种新颖的神经网络架构,将特征提取、序列建模和转录集成到统一框架中,用于场景文本识别,相比现有算法其具有端到端训练,不需要一定的词典限制,更加适合实际应用等优点,在标准测试数据上展现出更好的性能。
Jul, 2015
本研究介绍了一种基于卷积神经网络的端到端文本识别、图像检索系统,使用了一些新颖的深度学习技术实现文本定位、识别、筛选和排序,在多个基准测试数据集上获得了最先进的性能表现,并应用于新闻视频检索中。
Dec, 2014
本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架,并通过一种新的识别转换机制,在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位,从而使该方法在多种数据集上显著优于现有方法。
Mar, 2022
该研究提出了一种统一的网络,同时定位和识别文本,通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别,避免了中间过程,取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。
Jun, 2019