快速融合低秩和核注意力
介绍了一种新的分层视觉 Transformer 网络模型 (D-LKA Net),采用变形大核注意力机制以完全理解体积上下文信息,并在医学图像分割任务上展现出卓越的性能。
Aug, 2023
通过将深度可分离卷积核的二维卷积核分解为级联的水平和垂直一维卷积核,提出了一种名为 Large Separable Kernel Attention(LSKA)模块的家族,用于减少计算复杂性和内存占用,同时在视觉注意力网络(VAN)中实现具有大卷积核的注意力模块,并表明 LSKA 模块比 VAN 中的标准 LKA 模块具有更大的目标形状偏好和较低的计算复杂度和内存占用。
Sep, 2023
通过将局部敏感哈希(locality sensitive hashing,LSH)和核特征映射(kernel feature map)结合,我们提出了 Scatterbrain 方法来统一稀疏 Attention 和低秩 Attention,以进行精确和高效的逼近;在服务于 BigGAN 图像生成和基于预训练 T2T-ViT 模型中,Scatterbrain 可以实现比基线低 2.1 倍的误差。在 T2T Vision Transformer 模型中,Scatterbrain 即使没有微调,也可以在准确率只下降 1%的情况下减少 98%的注意力内存。对于语言建模和长距任务,我们的方法相对于稀疏或低秩 Transformers,具有更高的困惑度和平均准确率。
Oct, 2021
本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法,基于对查询进行分块的计算,在多个数据集上的评估表明其准确性接近于 vanilla attention。
Jun, 2021
通过引入基于 NAS 的自动化框架 FLORA,本论文提出了一种用于降低计算负载的低秩逼近方法,通过低秩感知的候选过滤策略和低秩特定训练方法,实现了更精细的低秩配置,相比简单均匀配置可额外减少 33% 的操作次数,同时还展示了与压缩技术和紧凑混合结构整合可达到更高的 FLOPs 减少率。
Nov, 2023
本研究提出了一种自适应地选择卷积核大小的机制(SKA),通过利用频道信息和注意力机制,改进了现有的演讲者验证体系结构,且在三种不同的评估协议中经过充分的实验验证,改进后的 SKA 变体的表现持续提高,并具备良好的互补性。
Apr, 2022
本文提出了一种基于自归一化重要性采样器的线性随机化注意力机制,结合了随机特征关注性的表达性和计算效率,能够以线性时间和空间复杂度近似整个 softmax 注意力,与随机特征关注性相比,具有很大的性能优势。
Apr, 2022
我们重新审视了注意力机制与大内核卷积神经网络在视觉转换器中的关系,并提出了一种称为大内核卷积注意力(LKCA)的新空间注意力机制。它通过将注意力操作替换为单个大内核卷积来简化注意力机制。LKCA 结合了卷积神经网络和视觉转换器的优势,具有大的接受域、局部性和参数共享特点。我们从卷积和注意力的角度解释了 LKCA 的优势,并为每个视角提供了等效的代码实现。实验证实,从卷积和注意力的角度实现的 LKCA 表现出等效性能。我们在分类和分割任务中广泛实验了 LKCA 变体的 ViT。实验表明,LKCA 在视觉任务中表现出竞争性能。我们的代码将在此 https URL 上公开。
Jan, 2024
通过引入 SPARSEK Attention,将自注意机制的计算和内存障碍降到最低,提供线性时间复杂度和恒定的内存占用,实现了更高效的长序列处理和管理。
Jun, 2024