常数内存注意力块
本研究提出了一个新的神经过程模型 —— 常数内存注意力神经过程模型(CMANPs),它可以使用常数内存完成条件、查询和更新阶段,能够在低资源环境下高效地进行元回归和图像完成任务,与现有方法相比具有更好的内存效率和可扩展性。
May, 2023
本文提出一种卷积块自适应模型 (Convolutional Block Attention Module, CBAM),通过自适应特征细粒度调整, CBAM 可以被轻松集成到任何卷积神经网络架构中,改进了分类和检测性能。
Jul, 2018
研究报告探讨了如何提高 Transformer 结构在处理长序列任务时的效率问题,提出了一种称为带有有限存储控制的注意力机制的抽象方法,并实现了学习性的上下文记忆优化,实验证明其可显著提高长序列任务的处理效率。
Oct, 2021
本篇论文提出了一种名为 Bottleneck Attention Module(BAM)的简单有效的注意力机制,可嵌入任何前馈卷积神经网络中,并在 CIFAR-100、ImageNet-1K、VOC 2007 和 MS COCO 等基准测试中通过广泛实验验证了其在图像分类和检测性能上的一致提高。
Jul, 2018
借助现代 CPU 中的 Single-Instruction-Multiple-Data(SIMD)寄存器的独特能力,本文提出了 NoMAD-Attention,一种高效的注意力算法,通过在寄存器中进行查找来取代昂贵的 Multiply-Add(MAD)矩阵运算,从而实现了注意力分数的计算。实证评估表明,NoMAD-Attention 在保持原始 LLMs 质量的同时,将基于 4 位量化的 LLaMA-7B 模型的速度提高了 2 倍,上下文长度为 16k。
Mar, 2024
提出了一种新颖的关注机制,即神经关注记忆(NAM),它是一种可读写的记忆结构,并基于此设计了基于 NAM 的 MANN、few-shot 学习、N-way K-shot 学习和 Transformer 等模型,实验证明 NAM 在算法零样本泛化、减少假阳性等方面效果更好。
Feb, 2023
通过研究神经网络中特征映射的统计矩,我们发现高阶矩在增强模型能力方面具有关键作用。因此,我们引入了一种灵活和全面的机制,称为 “广泛的矩聚合(EMA)”,以捕获全局空间上下文。在此机制基础上,我们提出了一种名为 “矩通道注意力(MCA)” 的框架,通过我们的 “交叉矩卷积(CMC)” 模块,在尽量减少额外计算成本的同时高效地结合了多个级别的基于矩的信息。实验证明,我们提出的方法在经典的图像分类、目标检测和实例分割任务中取得了最先进的结果,超越了现有的通道注意力方法。
Mar, 2024
本文提出了一种双重注意力块 (double attention block) 的方法,其聚合和传播了来自输入图像 / 视频的整个时空空间的全局特征,从而使下一层卷积层高效地访问整个空间中的特征;将此块应用于当前卷积神经网络,可以显著提高图像 / 视频的识别性能,在 ImageNet-1k 数据集上,ResNet-50 与双重注意力块的表现优于参数数量多得多的 ResNet-152, 在动作识别任务中,该模型在 Kinetics 和 UCF-101 数据集上取得了最先进的成果。
Oct, 2018
本文提出了一种新的有效注意机制,其在计算代价和内存使用方面远优于点积注意力,这种资源效率使得它能够更广泛和灵活地集成到网络中,提高了观察精度,可以用于物体检测、实例分割和立体深度估计等领域。
Dec, 2018