ResNeSt: 分组注意网络
本文提出了一种高效的多尺度视觉 Transformer 模型,名为 ResT,可作为图像识别的通用骨干。它通过一些优势来应对传统 Transformer 模型在应对分辨率固定的原始图像中存在的缺陷, 特别是建立了一种内存高效的多头自注意力机制、一种空间关注的位置编码方法,并将贴片嵌入设计为一系列重叠卷积运算,最终提高了大量原始图像识别和下游任务的性能。
May, 2021
通过引入注意力机制,在端到端的训练过程中将其与最先进的前馈网络结构相结合,我们提出了一种卷积神经网络模型 “Residual Attention Network”,并在 CIFAR-10、CIFAR-100 和 ImageNet 三个基准数据集上实现了最佳的物体识别表现。
Apr, 2017
本文提出了一种新型卷积神经网络模块 ——Res2Net,在单个残差块内构建分层残差连接,从而以粒度的方式表示多尺度特征,并扩大每个网络层的感受野范围。在图像分类和目标检测等计算机视觉任务中,Res2Net 优于目前的基线方法。
Apr, 2019
该论文提出了一种新的卷积神经网络 (CNN) 架构,通过使用具有不同计算复杂度的多分支网络,在不同的尺度上频繁合并特征,以使用更少的计算实现多尺度特征,并在目标识别和语音识别任务上显著提高了模型效率和性能。
Jul, 2018
本文提出了一种双重注意力块 (double attention block) 的方法,其聚合和传播了来自输入图像 / 视频的整个时空空间的全局特征,从而使下一层卷积层高效地访问整个空间中的特征;将此块应用于当前卷积神经网络,可以显著提高图像 / 视频的识别性能,在 ImageNet-1k 数据集上,ResNet-50 与双重注意力块的表现优于参数数量多得多的 ResNet-152, 在动作识别任务中,该模型在 Kinetics 和 UCF-101 数据集上取得了最先进的成果。
Oct, 2018
本文提出利用注意力机制在卷积特征激活层面上进行细粒度图像识别,相对于传统方法,在不需要部分标注的情况下使用低层次特征进行输出概率分配,并在 CIFAR-10、Adience gender recognition task、Stanford Dogs 和 UEC-Food100 等数据集上取得了最先进的分类精度。
Jul, 2019
本文提出了一种新的卷积神经网络架构 GoogLe2Net,其中 ResFRI 或 Split-ResFRI 创造横向通道和残差连接,使得信息可以在卷积层之间流动,并在细粒度上表达多尺度特征,从而在图像分类等任务中取得更好的结果。
Jan, 2023
深度学习模型已经通过学习原始像素数据中的复杂特征层次结构,革新了图像分类。本文介绍了一种基于 ResNet 模型的图像分类方法,并引入了一个轻量级的注意力机制框架来提高性能。该框架优化了特征表示,增强了分类能力,并提高了特征的判别性。我们在 Breakhis 数据集上验证了该算法的有效性,在许多方面显示出其优越性。我们的方法不仅在传统模型方面具有优势,还在当代视觉转换器等最先进方法上显示出优势。在精确度、准确度、召回率、F1 分数和 G-means 等指标方面实现了显著的改进,同时在收敛时间方面表现良好。这些结果加强了算法的性能,并巩固了其在实际图像分类任务中的应用前景。
Aug, 2023
本文提出了一种利用深度学习技术中的循环记忆 - 关注模块来实现图像多标签分类识别的新方法。通过不使用候选区域提取方法,从卷积特征图中定位注意区域,并使用 LSTM 子网络对这些区域进行语义标记和全局依赖性的序列预测。试验表明该方法在识别准确率和效率上均优于现有技术。
Nov, 2017