快速融合低秩和核注意力

Jun, 2023

FLuRKA: Fast fused Low-Rank & Kernel Attention

Ahan Gupta, Yueming Yuan, Yanqi Zhou, Charith Mendis

TL;DRFLuRKA 是一种新型转换器，结合了低秩和核方法的优势，能够显著提高模型性能并匹配低秩和核方法在 GLUE 上的精度表现，同时在固定时间预训练方面也比全自注意力模型表现更好。

Abstract

Many efficient approximate self-attention techniques have become prevalent since the inception of the transformer architecture. Two popular classes of these techniques are →

self-attention transformer architecture flurka low-rank kernel methods

发现论文，激发创造

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

超越自注意力：用于医学图像分割的可变形大卷积核注意力

介绍了一种新的分层视觉 Transformer 网络模型 (D-LKA Net)，采用变形大核注意力机制以完全理解体积上下文信息，并在医学图像分割任务上展现出卓越的性能。

Aug, 2023

大型可分离核注意力：重新思考 CNN 中的大型核注意力设计

通过将深度可分离卷积核的二维卷积核分解为级联的水平和垂直一维卷积核，提出了一种名为 Large Separable Kernel Attention（LSKA）模块的家族，用于减少计算复杂性和内存占用，同时在视觉注意力网络（VAN）中实现具有大卷积核的注意力模块，并表明 LSKA 模块比 VAN 中的标准 LKA 模块具有更大的目标形状偏好和较低的计算复杂度和内存占用。

Sep, 2023

Scatterbrain: 统一稀疏和低秩注意力逼近

通过将局部敏感哈希（locality sensitive hashing，LSH）和核特征映射（kernel feature map）结合，我们提出了 Scatterbrain 方法来统一稀疏 Attention 和低秩 Attention，以进行精确和高效的逼近；在服务于 BigGAN 图像生成和基于预训练 T2T-ViT 模型中，Scatterbrain 可以实现比基线低 2.1 倍的误差。在 T2T Vision Transformer 模型中，Scatterbrain 即使没有微调，也可以在准确率只下降 1％的情况下减少 98％的注意力内存。对于语言建模和长距任务，我们的方法相对于稀疏或低秩 Transformers，具有更高的困惑度和平均准确率。

Oct, 2021

基于 Top-k 注意力的内存高效 Transformer

本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法，基于对查询进行分块的计算，在多个数据集上的评估表明其准确性接近于 vanilla attention。

Jun, 2021

FLORA：用于视觉 Transformer 的细粒度低秩架构搜索

通过引入基于 NAS 的自动化框架 FLORA，本论文提出了一种用于降低计算负载的低秩逼近方法，通过低秩感知的候选过滤策略和低秩特定训练方法，实现了更精细的低秩配置，相比简单均匀配置可额外减少 33% 的操作次数，同时还展示了与压缩技术和紧凑混合结构整合可达到更高的 FLOPs 减少率。

Nov, 2023

频率和多尺度选择性核关注在说话人验证中的应用

本研究提出了一种自适应地选择卷积核大小的机制（SKA），通过利用频道信息和注意力机制，改进了现有的演讲者验证体系结构，且在三种不同的评估协议中经过充分的实验验证，改进后的 SKA 变体的表现持续提高，并具备良好的互补性。

Apr, 2022

线性复杂度随机自注意力机制

本文提出了一种基于自归一化重要性采样器的线性随机化注意力机制，结合了随机特征关注性的表达性和计算效率，能够以线性时间和空间复杂度近似整个 softmax 注意力，与随机特征关注性相比，具有很大的性能优势。

Apr, 2022

LKCA：大卷积核关注

我们重新审视了注意力机制与大内核卷积神经网络在视觉转换器中的关系，并提出了一种称为大内核卷积注意力（LKCA）的新空间注意力机制。它通过将注意力操作替换为单个大内核卷积来简化注意力机制。LKCA 结合了卷积神经网络和视觉转换器的优势，具有大的接受域、局部性和参数共享特点。我们从卷积和注意力的角度解释了 LKCA 的优势，并为每个视角提供了等效的代码实现。实验证实，从卷积和注意力的角度实现的 LKCA 表现出等效性能。我们在分类和分割任务中广泛实验了 LKCA 变体的 ViT。实验表明，LKCA 在视觉任务中表现出竞争性能。我们的代码将在此 https URL 上公开。

Jan, 2024

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

通过引入 SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。

Jun, 2024