注意力近似稀疏分布式存储
通过对注意力机制中稀疏性的理论分析,揭示了注意力分数稀疏性的内在特性及其对计算效率的影响,并为优化大型语言模型的计算框架提供了一个理论检验,为更可扩展和高效的人工智能系统铺平了道路。
Apr, 2024
通过研究注意力矩阵中不同位置的重要性,我们提出了可重构性较强的 Transformer 模型 SparseBERT,并给出了 Differentiable Attention Mask 算法以进一步指导模型的设计。我们证明了对角线元素可以被移除,而不影响模型的性能。通过广泛实验,证实了我们的有趣发现和算法的有效性。
Feb, 2021
使用稀疏分布式记忆连接核心神经回路与 Transformer 模型,创造了一种修改的多层感知器,该算法可有效解决人工神经网络所面临的连续学习问题,并广泛适用于训练稀疏网络。
Mar, 2023
通过将局部敏感哈希(locality sensitive hashing,LSH)和核特征映射(kernel feature map)结合,我们提出了 Scatterbrain 方法来统一稀疏 Attention 和低秩 Attention,以进行精确和高效的逼近;在服务于 BigGAN 图像生成和基于预训练 T2T-ViT 模型中,Scatterbrain 可以实现比基线低 2.1 倍的误差。在 T2T Vision Transformer 模型中,Scatterbrain 即使没有微调,也可以在准确率只下降 1%的情况下减少 98%的注意力内存。对于语言建模和长距任务,我们的方法相对于稀疏或低秩 Transformers,具有更高的困惑度和平均准确率。
Oct, 2021
SEA 提出了稀疏线性注意力机制,通过基于核的线性注意力估计注意力矩阵,然后使用 top-k 选择生成对完整注意力矩阵的稀疏近似,以解决 transformers 在处理长序列时的复杂性问题,并保持可解释的注意力矩阵和利用知识蒸馏来降低预训练 transformers 的复杂性。
Oct, 2023
研究将稀疏和单调注意力引入基于 Transformer 的自动语音识别,以克服传统 Transformer 中针对流式识别的自我注意和多头注意的局限性,并在多项基准测试中取得了良好的效果。
Sep, 2022
本研究提出了 Routing Transformer,它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块,将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$,并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。
Mar, 2020
本篇论文对注意力机制的实现方法进行了实证研究,发现空间注意力及注意力机制中的关键内容对比对深度神经网络的性能影响显著,为注意力机制的进一步研究及设计提供了新的思路和方向。
Apr, 2019