文本识别的解耦注意力网络
本文提出了一种名为 Focusing Attention Network 的方法,利用聚焦注意机制来消除针对复杂和 / 或低质量图像的 “注意力漂移” 现象,同时采用 ResNet-based 网络来丰富场景文本图像的深层表示,并在 IIIT5k、SVT 和 ICDAR 数据集上进行了实验,其结果表明 FAN 明显优于现有方法。
Sep, 2017
该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别,其中结合了卷积神经网络进行视觉信息的提取,实验结果表明其相比于最近的序列到序列方法取得了显著提升。
Mar, 2019
提出双重关注网络框架(Dual Attention Networks),应用于视觉和文本场景的多模态推理、比对任务,在 Visual Question Answering 和图片 - 文本比对任务中取得最新的优异表现。
Nov, 2016
本文提出了一种模拟大脑自上而下关注机制的、模型复杂度较低但表现优异的基于编码器 - 解码器的深度神经网络架构 TDANet,并在三个基准数据集上验证其高效性和有效性。
Sep, 2022
我们提出了一种新的面部表情识别网络,称为分心网络(DAN)。我们的方法基于两个关键观察结果。首先,多个类别共享内在相似的面部外貌,它们的差异可能很细微。其次,面部表情通过多个面部区域同时展示出来,并且需要通过编码局部特征之间的高阶交互的全面方法来识别。为了解决这些问题,我们提出了我们的 DAN,并通过三个关键部分构建了它。经过广泛实验验证,在包括 AffectNet、RAF-DB 和 SFEW 2.0 在内的三个公共数据集上,该方法始终实现了最先进的面部表情识别性能。
Sep, 2021
本文通过应用双重注意力网络 (DANet) 和自注意力机制来捕捉语境相关性,以实现更准确的场景分割,在 Cityscapes 数据集上取得了 81.5% 的平均 IoU 得分,并提供了相应的代码和训练模型。
Sep, 2018
本研究提出一种基于全局特征引导注意力的二维卷积神经网络和序列解码器来识别场景文本的简单但强大方法,训练时仅使用单词级别的注释,相比循环神经网络,能够在前向和后向传递中获得 1.3x 至 9.4x 不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。
Apr, 2019
该研究提出了一种简单有效的框架,可以同时处理文字检测和识别,其中利用了新颖的文本对齐层、字符空间信息作为显式监督和端到端可训练的模型。通过联合培训,该方法在两个数据集上实现了新的最先进检测性能和表现提高。
Mar, 2018
本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统,并通过多层和丰富的监督信息,包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终,该方法在 ICDAR 2013 数据集上取得了很好的效果。
Oct, 2015
本文提出了基于注意力卷积网络的端到端场景文本识别方法,通过卷积神经网络 (CNN) 代替循环神经网络 (RNN) 来实现输入序列的上下文依赖关系的准确捕捉,提高了识别效率,并结合残余注意力模块进一步提高特征识别的准确性。该方法在多个数据集上验证结果显示了显著的性能优势。
Sep, 2017