Scatterbrain: 统一稀疏和低秩注意力逼近

Oct, 2021

Scatterbrain: 统一稀疏和低秩注意力逼近

Scatterbrain: Unifying Sparse and Low-rank Attention Approximation

Beidi Chen, Tri Dao, Eric Winsor, Zhao Song, Atri Rudra...

TL;DR通过将局部敏感哈希（locality sensitive hashing，LSH）和核特征映射（kernel feature map）结合，我们提出了 Scatterbrain 方法来统一稀疏 Attention 和低秩 Attention，以进行精确和高效的逼近；在服务于 BigGAN 图像生成和基于预训练 T2T-ViT 模型中，Scatterbrain 可以实现比基线低 2.1 倍的误差。在 T2T Vision Transformer 模型中，Scatterbrain 即使没有微调，也可以在准确率只下降 1％的情况下减少 98％的注意力内存。对于语言建模和长距任务，我们的方法相对于稀疏或低秩 Transformers，具有更高的困惑度和平均准确率。

Abstract

Recent advances in efficient transformers have exploited either the sparsity or low-rank properties of attention matrices to reduce the computational and memory bottlenecks of modeling long sequences. However, it

transformers attention matrices approximation scatterbrain efficiency

发现论文，激发创造

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

通过引入 SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。

Jun, 2024

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

基于高斯分布输入的自然稀疏注意力

通过对注意力机制中稀疏性的理论分析，揭示了注意力分数稀疏性的内在特性及其对计算效率的影响，并为优化大型语言模型的计算框架提供了一个理论检验，为更可扩展和高效的人工智能系统铺平了道路。

Apr, 2024

视觉 Transformer 中的区域与稀疏注意力融合

本研究提出了一种新的混合视觉 transformer 模型 (ACC-ViT)，运用区域关注和稀疏关注相结合的方式，动态地集成了局部和全局信息，同时保留了分层结构，并在常见的视觉任务中表现出色。

Jun, 2024

注意力近似稀疏分布式存储

该研究发现，在某些数据条件下，Transformer Attention 机制与 Kanerva 的 Sparse Distributed Memory 有密切关联，可以提供 Attention 的新的计算和生物学解释，进一步确认预训练的 GPT2 Transformer 模型已满足这些条件。

Nov, 2021

Combiner: 具有稀疏计算成本的全关注力变换器

提出了一种名为 Combiner 的替代 transformers 中的 attention layers 的方法，其通过利用结构化分解的条件分布来近似自我关注机制，实现了每个关注头的完全关注能力，同时保持低计算和内存复杂性。在自回归和双向序列任务上的实验评估表明，该方法有效性高，可以产生多个图像和文本建模任务的最新技术结果。

Jul, 2021

基于内容的稀疏注意力路由转换网络

本研究提出了 Routing Transformer，它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块，将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$，并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。

Mar, 2020

SEA：具有估计注意力掩码的稀疏线性注意力

SEA 提出了稀疏线性注意力机制，通过基于核的线性注意力估计注意力矩阵，然后使用 top-k 选择生成对完整注意力矩阵的稀疏近似，以解决 transformers 在处理长序列时的复杂性问题，并保持可解释的注意力矩阵和利用知识蒸馏来降低预训练 transformers 的复杂性。

Oct, 2023

利用稀疏变换器生成长序列

本文介绍了一种称为 Sparse Transformers 的神经网络架构，该架构通过稀疏的注意力矩阵因式分解和其他一些技术，可以更有效地处理长序列等任务，并在 Enwik8，CIFAR-10，和 ImageNet-64 等基准数据集上创造出新的最优表现。

Apr, 2019

一种用于稀疏和结构化神经注意力的正则化框架

提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制，它不仅包括 softmax 和稀疏 max 作为特例，还可以融合现代结构惩罚，可以应用于神经网络中，在文本蕴含、机器翻译和句子摘要等任务中表现良好，提高了可解释性并保持性能优越。

May, 2017