Jun, 2024

HiP 注意力:带有分层注意力修剪的稀疏次二次注意力

TL;DR我们提出了一种名为 HiP 的新方法,通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T),空间复杂度从 O (T^2) 降低到 O (T),并且能够扩展到数百万个令牌的预训练 LLM 应用中。