注意力近似稀疏分布式存储

Nov, 2021

Attention Approximates Sparse Distributed Memory

Trenton Bricken, Cengiz Pehlevan

TL;DR该研究发现，在某些数据条件下，Transformer Attention 机制与 Kanerva 的 Sparse Distributed Memory 有密切关联，可以提供 Attention 的新的计算和生物学解释，进一步确认预训练的 GPT2 Transformer 模型已满足这些条件。

Abstract

While attention has come to be an important mechanism in deep learning, there remains limited intuition for why it works so well. Here, we show that transformer →

attention transformer sparse distributed memory associative memory model pre-trained models

发现论文，激发创造

基于高斯分布输入的自然稀疏注意力

通过对注意力机制中稀疏性的理论分析，揭示了注意力分数稀疏性的内在特性及其对计算效率的影响，并为优化大型语言模型的计算框架提供了一个理论检验，为更可扩展和高效的人工智能系统铺平了道路。

Apr, 2024

SparseBERT: 自注意力中重要性分析的反思

通过研究注意力矩阵中不同位置的重要性，我们提出了可重构性较强的 Transformer 模型 SparseBERT，并给出了 Differentiable Attention Mask 算法以进一步指导模型的设计。我们证明了对角线元素可以被移除，而不影响模型的性能。通过广泛实验，证实了我们的有趣发现和算法的有效性。

Feb, 2021

稀疏分布式内存是一种连续学习器

使用稀疏分布式记忆连接核心神经回路与 Transformer 模型，创造了一种修改的多层感知器，该算法可有效解决人工神经网络所面临的连续学习问题，并广泛适用于训练稀疏网络。

Mar, 2023

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021

Scatterbrain: 统一稀疏和低秩注意力逼近

通过将局部敏感哈希（locality sensitive hashing，LSH）和核特征映射（kernel feature map）结合，我们提出了 Scatterbrain 方法来统一稀疏 Attention 和低秩 Attention，以进行精确和高效的逼近；在服务于 BigGAN 图像生成和基于预训练 T2T-ViT 模型中，Scatterbrain 可以实现比基线低 2.1 倍的误差。在 T2T Vision Transformer 模型中，Scatterbrain 即使没有微调，也可以在准确率只下降 1％的情况下减少 98％的注意力内存。对于语言建模和长距任务，我们的方法相对于稀疏或低秩 Transformers，具有更高的困惑度和平均准确率。

Oct, 2021

SEA：具有估计注意力掩码的稀疏线性注意力

SEA 提出了稀疏线性注意力机制，通过基于核的线性注意力估计注意力矩阵，然后使用 top-k 选择生成对完整注意力矩阵的稀疏近似，以解决 transformers 在处理长序列时的复杂性问题，并保持可解释的注意力矩阵和利用知识蒸馏来降低预训练 transformers 的复杂性。

Oct, 2023

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

基于 Transformer 的自适应稀疏和单调注意力自动语音识别

研究将稀疏和单调注意力引入基于 Transformer 的自动语音识别，以克服传统 Transformer 中针对流式识别的自我注意和多头注意的局限性，并在多项基准测试中取得了良好的效果。

Sep, 2022

基于内容的稀疏注意力路由转换网络

本研究提出了 Routing Transformer，它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块，将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$，并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。

Mar, 2020

深度网络中空间注意机制的实证研究

本篇论文对注意力机制的实现方法进行了实证研究，发现空间注意力及注意力机制中的关键内容对比对深度神经网络的性能影响显著，为注意力机制的进一步研究及设计提供了新的思路和方向。

Apr, 2019