使用码字直方图的线性时间自注意力机制实现高效推荐
本文介绍了一种基于二项分布采样的局部敏感哈希(LSH)注意力机制,可以将自注意力的复杂度从二次降到线性。我们在 GLUE 和 LRA 基准测试中测试该算法并发现性能优于标准的预训练变压器模型和其他自注意力方法。
Nov, 2021
我们提出了一种名为 HiP 的新方法,通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T),空间复杂度从 O (T^2) 降低到 O (T),并且能够扩展到数百万个令牌的预训练 LLM 应用中。
Jun, 2024
本文提出了 SampleAttention,一种自适应结构化的稀疏注意力机制,通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟,并在大规模语言模型中取得了几乎没有准确性损失的效果。
Jun, 2024
该论文介绍了一种新型轻量级自注意网络 LSAN,通过组成嵌入将原始嵌入矩阵进行压缩并提出了时态上下文感知的嵌入组合方案以解决目前序列推荐中所存在的大量参数嵌入矩阵对资源受限环境的开销过大的问题,并拥有更强的性能表现。
Aug, 2021
我们提出了一种不需要训练参数的自注意力近似方法 SPSA,该方法具有线性复杂度,结合卷积捕获全局空间特征,并在图像分类和目标检测任务中进行了大量实验验证其有效性。
Jul, 2023
长序列模型中,使用了 LongVQ 方法以更有效地利用向量量化技术来压缩全局抽象,并以线性时间计算注意力矩阵,有效地解决长距离依赖问题。
Apr, 2024
我们提出了一个名为 HyperAttention 的近似注意力机制,用于解决大型语言模型(LLMs)中使用的复杂长上下文所带来的计算挑战。通过引入两个参数来衡量问题的难度,我们能够实现线性时间采样算法,即使矩阵具有无界的条目或较大的稳定秩。HyperAttention 具有模块化设计,容易集成其他快速底层实现,特别是 FlashAttention。实证上,通过利用局部敏感哈希(LSH)来识别大条目,HyperAttention 优于现有方法,在与 FlashAttention 等最先进解决方案相比,获得了显著的速度改进。我们验证了 HyperAttention 在不同长上下文数据集上的实证性能,例如,ChatGLM2 的推理时间得以加快 50%,而困惑度从 5.6 增加到 6.3。对于更大的上下文长度,例如 131k,并采取因果屏蔽,HyperAttention 在单个注意层上实现了 5 倍的加速。
Oct, 2023
通过分析自注意力机制的注意力矩阵分布和其专注能力,并引入一种新的自注意力机制(线性对数正态注意力),我们试图研究其与原始自注意力的分布和专注行为的模拟度量,实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案,为提高 Transformer 模型的可扩展性提供了有前景的途径。
Nov, 2023
本研究提出了一种新型的自调节注意力网络来学习动态用户偏好,并在三个大规模真实数据集上实验表明,该模型可以实现最先进的顺序推荐性能。
Mar, 2022
ALISA 是一种算法 - 系统共同设计解决方案,旨在解决 KV 缓存所带来的挑战。通过引入高度稀疏的注意力层和优化缓存与重新计算之间的权衡,ALISA 在有限资源的系统中最大化整体性能。
Mar, 2024