本文讨论利用 Grover 的搜索算法有效地计算稀疏注意力计算矩阵,并在经典方法上实现了多项式量子加速。我们的量子算法输出的注意力矩阵还具有额外的低秩结构,这将有助于获得更快的 LLM 训练算法。此外,我们还对算法的错误分析和时间复杂度进行了详细分析。
Jul, 2023
本文探讨了如何使用稀疏注意力来解释模型,我们设计了一系列的实验来研究稀疏性对于注意力解释能力的影响。通过针对三个文本分类任务的实验证明了,在稀疏和非稀疏的注意力下,输入和协同中间表示之间存在一种微弱的关系。此外,本文发现稀疏的注意力分布无法映射到一组稀疏的具有影响力的输入,从而表明在诱导稀疏性的设置下,注意力可能无法作为理解模型行为的工具。
Jun, 2021
稀疏注意力能够有效缓解大型语言模型在长上下文中的内存和吞吐量需求,我们提出了混合注意力(MoA),它能够自动为不同的注意力头部和层级适应不同的稀疏注意力配置,通过优化稀疏注意力压缩方案,MoA 在保持平均注意力范围不变的情况下,将有效上下文长度提高 3.9 倍,并在多个评估指标上取得 1.5-7.1 倍的准确性提升,在 GPU 内存减少 1.2-1.4 倍的同时,提升解码吞吐量 5.5-6.7 倍。
Jun, 2024
提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制,它不仅包括 softmax 和稀疏 max 作为特例,还可以融合现代结构惩罚,可以应用于神经网络中,在文本蕴含、机器翻译和句子摘要等任务中表现良好,提高了可解释性并保持性能优越。
May, 2017
通过引入关注点卸载的概念,将昂贵的计算优化加速器与便宜的内存优化设备相结合,以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统,实验证明,相较于同质解决方案,Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。
May, 2024
本研究探讨稀疏神经模型在自然语言处理中的重要性,使用出租车欧几里得范数对稀疏度进行量化,发现输入频繁的词在激活方面较为集中,而目标词汇的激活由分散变得集中,并且功能词梯度比内容词梯度更集中。
Jul, 2019
通过引入 SPARSEK Attention,将自注意机制的计算和内存障碍降到最低,提供线性时间复杂度和恒定的内存占用,实现了更高效的长序列处理和管理。
该研究发现,在某些数据条件下,Transformer Attention 机制与 Kanerva 的 Sparse Distributed Memory 有密切关联,可以提供 Attention 的新的计算和生物学解释,进一步确认预训练的 GPT2 Transformer 模型已满足这些条件。
Nov, 2021
本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制,以实现更快的计算和更高的准确率。
Nov, 2022
本文主要研究大型语言模型的隐私问题,提出采用差分隐私的方法对其准确计算注意力矩阵的隐私保护。通过借鉴早期的差分隐私工作,构建了可以被证明的计算方法。
May, 2023