带有语义指导的高效场景文本图像超分辨率
提出了一个新的基于语义推理网络的端到端的可训练框架,用于场景文本识别,其中引入了全局语义推理模块来通过多向并行传输捕获全局语义内容,具有比基于循环神经网络方法更快的速度。该方法在包括正常文本、不规则文本和非拉丁长文本在内的 7 个公共基准上取得了最先进的结果,验证了其有效性和鲁棒性。
Mar, 2020
本研究提出了一种基于编码器 - 解码器框架的语义增强模型来识别低质量的场景文本,它使用显式的全局语义信息,并将现有的 ASTER 方法作为示例,实验证明了该模型对低质量文本图像更加鲁棒,并在多个基准数据集上取得了最先进的结果。
May, 2020
本文提出了 SEE,一个用于自然场景文本检测和识别的半监督神经网络,它能够通过端到端的优化方式实现。相较于现有的多个深度神经网络和多个预处理步骤,SEE 提出了使用单一的深度神经网络的方案,该网络能够学习从自然图像中检测和识别文本,同时我们介绍了我们的新方法并在标准基准数据集上进行了一系列实验,证明了我们方案的可行性以及达到了与现有技术相比的竞争性结果。
Dec, 2017
通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计,提出了一种新的图像合成技术,用于生成大量标注数据,以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。
Jul, 2018
本文提出了一种 Stroke-Aware Scene Text Image Super-Resolution 方法,通过设计规则分解英文字符和数字,设计 Stroke-Focused Module(SFM)以集中于字符的笔画级内部结构,旨在通过预训练文本识别器为位置提供笔画级别的注意力图,并控制所生成的超分辨率图像与高分辨率真实值之间的一致性,从而实现低分辨率场景文本图像识别的目的。
Dec, 2021
本文提出了一种基于弱监督学习的场景文本生成方法,通过跨语言生成,将场景文本图片的内容和样式特征分离,并引入整合式注意力模块和预先训练的字体分类器以保证生成图片的完整内容结构以及填补不同语言文本风格之间的差距,实验结果显示,该方法显著提高了场景文本识别精度。
Jun, 2023
本研究提出了一种名称为 LEMMA 的新方法,通过显式建模字符区域,生成具有高级文本特定引导的超分辨率图像,通过位置增强模块和多模态对齐模块提升字符区域的特征提取和视觉 - 语义对齐,并使用自适应融合模块将先验引导无缝融合到超分辨率分支中。在 TextZoom 和四个场景文本识别基准测试上的实验证明了本方法相对于其他最先进技术的优越性。
Jul, 2023
我们提出了一种使用 YOLOV8 作为目标检测骨干网络的实时场景图生成方法,该方法在任务中首次实现超过 48 FPS 的速度,且没有准确度损失,成功胜过任何其他轻量级方法。
May, 2024
本文提出了一种新颖的神经网络架构,将特征提取、序列建模和转录集成到统一框架中,用于场景文本识别,相比现有算法其具有端到端训练,不需要一定的词典限制,更加适合实际应用等优点,在标准测试数据上展现出更好的性能。
Jul, 2015