场景文字识别的编辑概率
本研究提出了一种基于编码器 - 解码器框架的语义增强模型来识别低质量的场景文本,它使用显式的全局语义信息,并将现有的 ASTER 方法作为示例,实验证明了该模型对低质量文本图像更加鲁棒,并在多个基准数据集上取得了最先进的结果。
May, 2020
本文提出了一种通过卷积神经网络模型擦除自然场景图像中文字信息的方法,并通过场景文本检测方法对其性能进行了测试,证明了与直接文本检测方式相比,场景文本擦除过程显着降低了精度、召回率和 F1 值。
May, 2017
本文提出了一种新颖的神经网络架构,将特征提取、序列建模和转录集成到统一框架中,用于场景文本识别,相比现有算法其具有端到端训练,不需要一定的词典限制,更加适合实际应用等优点,在标准测试数据上展现出更好的性能。
Jul, 2015
通过引入基于扩散的场景文本操作网络(DBEST),我们设计了两种适应策略,即一次性样式适应和文本识别引导,在各种场景文本数据集上进行了全面评估和比较,并提供了深入的消融研究来分析我们的性能提升。此外,我们还展示了我们提出的方法在合成场景文本方面的有效性,通过竞争的光学字符识别(OCR)准确度,在 COCO-text 和 ICDAR2013 数据集上达到了 94.15% 和 98.12% 的字符级评估。
Nov, 2023
我们提出了一种通过判断图像和文本是否匹配来提高场景文本识别任务准确性的方法。与之前的研究关注于从输入图像生成识别结果不同,我们的方法还考虑了模型的误识别结果,以了解其错误倾向,从而改进了文本识别流程。该方法通过对模型可能误识别的数据进行预测,提供明确的反馈信息,从而提高了文本识别的准确性。公开可用数据集上的实验结果表明,我们提出的方法在场景文本识别方面超过了基线和最先进的方法。
Apr, 2024
本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法,只需要空间注意力而不需要矫正图像,仅使用卷积特征图作为单词嵌入输入到 transformer 中,并在大规模实验中取得了显著的优越性能。
Mar, 2020
本研究提出了一种新的模块,即自适应嵌入门 (AEG),并将其引入到注意机制中以解决预测限制对于文字场景识别表现的影响。该模块可以显著提高识别表现并带来更好的稳健性。
Aug, 2019
提出了一种使用并行和迭代解码器,并采用易先原则解码策略的替代方案,将文本识别视为基于图像的条件文本生成任务,并采用离散扩散策略,确保双向上下文信息的穷举性探索。大量实验证明,该方法在基准数据集上取得了优越的结果,包括中英文文本图像。
Dec, 2023
本文提出了一种基于迭代自适应改进现有标题的图像字幕生成的新方法,该方法包括两个子模块:一个具有自适应复制机制和选择性复制存储器注意机制的语言模块 EditNet 和一个基于 LSTM 的去噪自编码器 DCNet,实验表明我们的方法在 MS COCO 数据集上取得了最先进的性能。
Mar, 2020