Jun, 2024

Loki: 用于高效稀疏注意力的低秩键

TL;DR我们提出了一种基于低维空间计算注意力的稀疏注意力方法 Loki,该方法在推理阶段可以更好地保持模型的效力,并通过减少数据移动和计算成本来加快注意力计算。