双重注意力网络用于场景分割
我们提出了一种新的面部表情识别网络,称为分心网络(DAN)。我们的方法基于两个关键观察结果。首先,多个类别共享内在相似的面部外貌,它们的差异可能很细微。其次,面部表情通过多个面部区域同时展示出来,并且需要通过编码局部特征之间的高阶交互的全面方法来识别。为了解决这些问题,我们提出了我们的 DAN,并通过三个关键部分构建了它。经过广泛实验验证,在包括 AffectNet、RAF-DB 和 SFEW 2.0 在内的三个公共数据集上,该方法始终实现了最先进的面部表情识别性能。
Sep, 2021
提出双重关注网络框架(Dual Attention Networks),应用于视觉和文本场景的多模态推理、比对任务,在 Visual Question Answering 和图片 - 文本比对任务中取得最新的优异表现。
Nov, 2016
采用引导自我关注机制的卷积神经网络模型对医学图像进行语义分割,能够更好地捕捉图像中的上下文依赖关系,去除冗余的信息提取并集成本地特征和全局依赖,强调相关特征关联,从而取得更好的分割效果。
Jun, 2019
提出了一种新的模型,称为 AttaNet,用于在保持高效的同时捕获全局上下文和多级语义,通过 Strip Attention 模块和 Attention Fusion 模块实现低复杂度计算和加权特征融合技术,并在两个语义分割基准测试中进行了广泛的实验,取得了不同水平的速度 / 精度平衡和领先的表现。
Mar, 2021
本文提出一种新颖的双重注意力生成对抗网络(DAGAN),利用 position-wise 空间注意力模块和 scale-wise 通道注意力模块,从输入布局中综合地捕捉了语义结构注意力,实现了从语义标签到具有细节的照片逼真图像的生成。实验结果表明 DAGAN 相较于现有方法在多项数据集上实现了更好的结果,同时使用更少的模型参数。
Aug, 2020
该研究提出了 FLANet 方法,可以通过单个相似度图来同时编码空间和通道注意力,并在三个具有挑战性的语义分割数据集上最先进的性能达到 83.6%,46.99%和 88.5%。
Dec, 2021
本文提出使用 Feature Fusion with Different Norms (FFDN),利用多重尺度的丰富全局上下文信息和垂直池化模块来减少在垂直方向上全局上下文编码的复杂度。在城市风景测试数据集上,平均交互并集(mIoU)为 73.1,每秒帧数(FPS)为 191,与目前最先进的结果相当。
Oct, 2022
本文提出了一种多路径编码器结构来提取多路径输入的特征,多路径注意力融合块模块来融合多路径特征,以及细化注意力融合块模块来融合高层抽象特征和低层空间特征。同时,提出了一种新的卷积神经网络架构,名为注意力融合网络 (AFNet)。基于该 AFNet,在 ISPRS Vaihingen 2D 数据集上达到了 91.7% 的整体精度和 90.96% 的平均 F1 分数,在 ISPRS Potsdam 2D 数据集上达到了 92.1% 的整体精度和 93.44% 的平均 F1 分数,取得了最先进的性能。
May, 2021
本研究旨在通过多任务学习方式训练一个网络实现视觉注意力,使用半监督学习方式生成前 / 背景分割标签,进而训练目标检测模型,利用分割地图实现自我注意机制,获得在交通监控领域两个数据集上显著的 mAP 改进,UA-DETRAC 和 UAVDT 数据集上均实现了最先进的结果。
Feb, 2020
本文提出了一种双重注意力块 (double attention block) 的方法,其聚合和传播了来自输入图像 / 视频的整个时空空间的全局特征,从而使下一层卷积层高效地访问整个空间中的特征;将此块应用于当前卷积神经网络,可以显著提高图像 / 视频的识别性能,在 ImageNet-1k 数据集上,ResNet-50 与双重注意力块的表现优于参数数量多得多的 ResNet-152, 在动作识别任务中,该模型在 Kinetics 和 UCF-101 数据集上取得了最先进的成果。
Oct, 2018