本文提出了基于注意力卷积网络的端到端场景文本识别方法,通过卷积神经网络 (CNN) 代替循环神经网络 (RNN) 来实现输入序列的上下文依赖关系的准确捕捉,提高了识别效率,并结合残余注意力模块进一步提高特征识别的准确性。该方法在多个数据集上验证结果显示了显著的性能优势。
Sep, 2017
本研究提出一种基于全局特征引导注意力的二维卷积神经网络和序列解码器来识别场景文本的简单但强大方法,训练时仅使用单词级别的注释,相比循环神经网络,能够在前向和后向传递中获得 1.3x 至 9.4x 不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。
Apr, 2019
提出了一种名为 Class-Aware Mask-guided feature refinement(CAM)的新方法来改善复杂背景、文本样式噪声等方面对场景文本识别的挑战,并通过标准字体生成规范的类感知字形掩码来增强特征区分性、设计特征对齐和融合模块来进一步提升文本识别的特征细化。在六个标准文本识别基准测试中,CAM 展示出优于先进方法的优势,平均性能提高了 4.1%,并且使用较小的模型尺寸。该研究强调了在鲁棒场景文本识别中融入规范的掩码指导和对齐特征细化技术的重要性。
Feb, 2024
本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统,并通过多层和丰富的监督信息,包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终,该方法在 ICDAR 2013 数据集上取得了很好的效果。
Oct, 2015
该论文提出了高斯注意模型,该模型用于神经记忆访问,知识库的连续向量空间嵌入,实现对知识库实体的问答,并成功应用于 2014 年 FIFA 世界杯球员数据集的路径和联合查询。
Nov, 2016
本文提出了一种名为 Focusing Attention Network 的方法,利用聚焦注意机制来消除针对复杂和 / 或低质量图像的 “注意力漂移” 现象,同时采用 ResNet-based 网络来丰富场景文本图像的深层表示,并在 IIIT5k、SVT 和 ICDAR 数据集上进行了实验,其结果表明 FAN 明显优于现有方法。
采用二维视角,提出了基于字符注意力全卷积网络的场景文本识别算法,该算法在语义分割网络中采用了字符注意机制和词形成模块,在不失精度的情况下更具有鲁棒性。
Sep, 2018
本文介绍了一种利用注意力机制生成对抗网络的方法,能够通过自然语言描述中的相关单词对图像的不同子区域进行精细的细节合成,并提出了一种深度的注意力多模式相似度模型,用于训练这个生成器。实验结果显示,在两个数据集上,这种注意力机制生成对抗网络都优于先前的最先进方法。
Nov, 2017
本文针对使用卷积操作在视觉任务中只关注局部局部信息、缺乏全局信息的不足,提出运用自注意力机制对视觉任务进行处理的方法;通过在图像分类和目标检测任务中实现卷积和自注意力的融合,可有效提高模型精度。
本文通过将高斯注意力引入光流模型,以强调表示学习过程中的局部特性并在匹配过程中强制实施运动相关性,提出了一种全新的高斯约束层(GCL)和高斯引导注意模块(GGAM)。GAFlow 网络是一个完整的模型,将这些高斯基于模块自然地融入传统的光流框架中,用于可靠的运动分析。在标准光流数据集上进行的广泛实验一致证明了所提方法在泛化能力评估和在线基准测试方面的优异性能。
Sep, 2023