扩张邻域注意力变换器
该研究提出了邻域注意力机制(Neighborhood Attention),改进了窗口自注意力机制(Window Self Attention),提高了视觉任务的性能,特别是图像分类方面。
Apr, 2022
DwinFormer 是一个层级编码器解码器架构,具有方向窗口(Dwin)注意力和全局自注意力(GSA)用于特征编码,通过在水平、垂直和深度方向分别执行注意力,在输入特征图的这些方向体积中有效地捕捉局部和全局信息,实验证明它在医学图像分割方面优于当前最先进的方法。
Jun, 2024
我们提出了一种紧凑的编码器 - 解码器 Transformer 模型 DeblurDiNAT,旨在高效地从现实世界的模糊图像中恢复清晰图像。通过采用交替的空洞因子结构和通道调制的自注意力块 (CMSA),以及快速特征传播的径路和乘法前馈网络 (DMFN),并使用轻量级的门控特征融合 (LGFF) 模块,我们在多个图像去模糊数据集上取得了最先进的性能。相比最近的竞争者,我们的方法在参数数量减少 3%-68%、可节省时间的同时,产生了更接近真实图像的去模糊结果。
Mar, 2024
提出了一种基于改进的稠密嵌套注意力网络(IDNANet)的红外小目标检测方法,采用变压器架构并结合 Swine-transformer 进行特征提取,在稠密嵌套结构中引入 ACmix 注意力结构增强中间层特征,通过设计加权 Dice 二元交叉熵(WD-BCE)损失函数缓解前景 - 背景样本不平衡的负面影响。通过在公共数据集上的实验表明,该方法在检测概率(P_d)、误警率(F_a)和平均交集联合($mIoU$)等指标上优于其他最先进的方法,NUDT-SIRST 数据集上的 $mIoU$ 为 90.89,NUAA-SIRST 数据集上为 79.72。
Nov, 2023
通过引入一种新的可变形多头注意力模块,Deformable Attention Transformer(DAT)有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题,从而提高视觉识别任务的性能。实验证明,DAT 在各种视觉识别基准测试中取得了最先进的结果,包括 85.9% 的 ImageNet 准确率,54.5 和 47.0 的 MS-COCO 实例分割 mAP,以及 51.5 的 ADE20K 语义分割 mIoU。
Sep, 2023
本文提出了一种名为 query and attend(QnA)的新型 shift-invariant local attention 层,将其并入分层视觉 transformer 模型,并证明其在速度和内存复杂度方面的改善,同时又能实现与最先进的模型相当的准确度。
Dec, 2021
DAS 是一种快速且简单的全卷积方法,通过使用可变形卷积进行图片中相关区域的定位和可分离卷积实现高效,结合了现有 CNN 并通过门控机制传播相关信息,展示了在图像分类和目标检测领域,DAS 相较于其他 CNN 注意机制在减少 FLOPs 的同时取得了更好的性能提升(如在狗类数据集 Stanford Dogs 中提升了 4.47%,ImageNet 中提升了 1.91%,COCO AP 中提升了 3.3%)
Nov, 2023
提出一种名为 DIA 的注意力网络单元,该单元在不同的神经网络层之间共享单个注意力模块,从而在各种视觉任务中提高了现有自我注意力模块的准确性,并且具有强大的正则化能力,能够通过增强层间信息交流和梯度值有效地恢复和提高其训练不稳定性。
Oct, 2022
本文介绍了一种新颖的变形注意力模块,提出了 Deformable Attention Transformer,通过变形注意力实现了基于图像分类和密集预测任务的骨干模型,并在广泛的基准测试中取得了显著的改进。
Jan, 2022
视频情感识别是通过一系列方法如 GRUs、LSTMs、自注意力机制、Transformers 和 TCNs 改善了基于视频情感识别,然而这些方法存在内存使用高、操作量大或梯度下降不良的问题。我们提出了一种称为邻域注意力与卷积 TCN(NAC-TCN)的方法,它结合了注意力和时序卷积网络的优点,并确保理解因果关系,从而减少计算和内存成本。我们的模型在标准的情感识别数据集上比 TCNs、TCAN、LSTMs 和 GRUs 取得了相当好或最先进的性能,并且需要较少的参数。我们在线发布了我们的代码,以便其他项目能够轻松复现和使用。
Dec, 2023