本文提出了一种无词典的场景图像文本识别方法,该方法基于一种基于LSTM的软视觉注意模型,该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量,实现了对空间信息的编码,从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外,我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果,以标准的SVT和ICDAR'03场景文本数据集为基础,证明了我们方法在无约束文本识别中的卓越表现。
Jun, 2017
本文提出了CharNet模型,是一种单阶段模型,能够同时处理文本检测和识别,输出包围框和对应字符标签,并采用迭代式字符检测方法,在三个标准基准测试中表现出对现有方法显著的性能改进。
Oct, 2019
该论文总结了场景文本识别的基本问题和最新技术,提供了相关资源,指出了未来的研究方向。
May, 2020
本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理,在 Con-Text 和 Drink Bottle 数据集中,在细粒度图像分类和图像检索任务中显著优于之前的最新技术。
Sep, 2020
通过引入语义信息,该论文提出了一种基于多级多尺度注意力解码器的视觉-语义推理方法,使用以往的视觉特征进行预测并使用多级注意力进行精细化的预测,获得了比现有技术达到了更好的性能。
Jul, 2021
本文提出一种名为VisionLAN的可提升文字识别速度与精度的模型,结合视觉和语言信息的Visual Language Modeling,以直接赋予形象模型带有语言能力,从而在训练阶段引导视觉模型利用视觉文本特征以及上下文信息的语言能力进行字符特征判断,绕过视觉噪声等干扰因素。本文中的Occlusion Scene Text数据集通过缺失部分字符信息的数据,进一步验证了我们的模型在复杂环境下的有效性。
Aug, 2021
该研究提出了一种基于图卷积网络的文本推理(GTR)方法并将其应用于场景文本识别中,该方法可以利用像素之间的空间关联来提高文本识别的性能,并在六个具有挑战性的基准测试中获得最新的最佳结果。
Dec, 2021
该文章提出了一种半监督的多模态文本识别方法(SemiMTR),通过使用自监督学习和监督学习相结合的单一阶段,将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调,同时在每个模态单独地应用连续性正则化方法进行训练,取得了在多个场景文本识别基准测试上的最新成果。
May, 2022
提出了一种新颖的交叉模态融合网络(CMFN),用于不规则场景文本识别,将视觉线索融入语义挖掘过程中,实验证明该算法在性能上与最先进的算法相当,验证了其有效性。
Jan, 2024
通过多透视的分析,该研究综述了视觉文本处理领域的最新进展,从文本图像增强和恢复到文本图像操作的层次性分类,再到不同学习范式。同时,讨论了如何将特定的文本特征,如结构、笔画、语义、风格和空间背景,无缝地整合到各种任务中,并在几个广泛使用的数据集上对方法进行了测试和评估。最后,确定了未来研究的主要挑战和潜在途径,旨在确立该综述作为一个基础资源,促进视觉文本处理领域的持续探索和创新。
Feb, 2024