Apr, 2024

利用统一的层跳过策略加速大型语言模型的推理

TL;DR提出了一种统一的层跳过策略,通过选择要跳过的层数来达到目标加速比,从而显著提升了推理性能和实际模型吞吐量。