用高斯约束的注意力网络进行场景文本识别

Oct, 2020

用高斯约束的注意力网络进行场景文本识别

Gaussian Constrained Attention Network for Scene Text Recognition

Zhi Qiao, Xugong Qin, Yu Zhou, Fei Yang, Weiping Wang

TL;DR提出一种基于高斯约束注意力网络的场景文本识别方法，用于处理现有注意力机制中的注意扩散问题，从而提高了识别网络的性能。

Abstract

scene text recognition has been a hot topic in computer vision. Recent methods adopt the attention mechanism for sequence prediction which

scene text recognition attention mechanism gaussian constrained attention network refinement module computer vision

发现论文，激发创造

使用注意力卷积序列建模技术识别场景文本

本文提出了基于注意力卷积网络的端到端场景文本识别方法，通过卷积神经网络 (CNN) 代替循环神经网络 (RNN) 来实现输入序列的上下文依赖关系的准确捕捉，提高了识别效率，并结合残余注意力模块进一步提高特征识别的准确性。该方法在多个数据集上验证结果显示了显著的性能优势。

Sep, 2017

基于整体表征的引导注意力网络用于场景文字识别

本研究提出一种基于全局特征引导注意力的二维卷积神经网络和序列解码器来识别场景文本的简单但强大方法，训练时仅使用单词级别的注释，相比循环神经网络，能够在前向和后向传递中获得 1.3x 至 9.4x 不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。

Apr, 2019

基于类别感知的文本场景识别的掩膜引导特征细化

提出了一种名为 Class-Aware Mask-guided feature refinement（CAM）的新方法来改善复杂背景、文本样式噪声等方面对场景文本识别的挑战，并通过标准字体生成规范的类感知字形掩码来增强特征区分性、设计特征对齐和融合模块来进一步提升文本识别的特征细化。在六个标准文本识别基准测试中，CAM 展示出优于先进方法的优势，平均性能提高了 4.1％，并且使用较小的模型尺寸。该研究强调了在鲁棒场景文本识别中融入规范的掩码指导和对齐特征细化技术的重要性。

Feb, 2024

基于文本注意力的卷积神经网络用于场景文本检测

本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统，并通过多层和丰富的监督信息，包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终，该方法在 ICDAR 2013 数据集上取得了很好的效果。

Oct, 2015

高斯注意力模型及其在知识库嵌入和问答中的应用

该论文提出了高斯注意模型，该模型用于神经记忆访问，知识库的连续向量空间嵌入，实现对知识库实体的问答，并成功应用于 2014 年 FIFA 世界杯球员数据集的路径和联合查询。

Nov, 2016

聚焦注意力：自然图像中准确的文本识别

本文提出了一种名为 Focusing Attention Network 的方法，利用聚焦注意机制来消除针对复杂和 / 或低质量图像的 “注意力漂移” 现象，同时采用 ResNet-based 网络来丰富场景文本图像的深层表示，并在 IIIT5k、SVT 和 ICDAR 数据集上进行了实验，其结果表明 FAN 明显优于现有方法。

Sep, 2017

从二维视角进行场景文本识别

采用二维视角，提出了基于字符注意力全卷积网络的场景文本识别算法，该算法在语义分割网络中采用了字符注意机制和词形成模块，在不失精度的情况下更具有鲁棒性。

Sep, 2018

AttnGAN: 使用注意力生成对抗网络进行精细化文本到图像生成

本文介绍了一种利用注意力机制生成对抗网络的方法，能够通过自然语言描述中的相关单词对图像的不同子区域进行精细的细节合成，并提出了一种深度的注意力多模式相似度模型，用于训练这个生成器。实验结果显示，在两个数据集上，这种注意力机制生成对抗网络都优于先前的最先进方法。

Nov, 2017

注意力增强卷积网络

本文针对使用卷积操作在视觉任务中只关注局部局部信息、缺乏全局信息的不足，提出运用自注意力机制对视觉任务进行处理的方法；通过在图像分类和目标检测任务中实现卷积和自注意力的融合，可有效提高模型精度。

Apr, 2019

GAFlow：将高斯注意力融入光流

本文通过将高斯注意力引入光流模型，以强调表示学习过程中的局部特性并在匹配过程中强制实施运动相关性，提出了一种全新的高斯约束层（GCL）和高斯引导注意模块（GGAM）。GAFlow 网络是一个完整的模型，将这些高斯基于模块自然地融入传统的光流框架中，用于可靠的运动分析。在标准光流数据集上进行的广泛实验一致证明了所提方法在泛化能力评估和在线基准测试方面的优异性能。

Sep, 2023