Jan, 2025

AdaSkip:加速长上下文大型语言模型推理的自适应子层跳过

TL;DR该研究解决了长上下文大型语言模型推理中的存储和计算成本问题。作者提出了一种名为AdaSkip的自适应子层跳过方法,利用即时相似性信息识别不重要的层,实现了子层跳过,加速了预填充和解码阶段。实验证明,AdaSkip在各类长上下文基准和模型上展现出优越的推理性能。