Feb, 2024

Sequoia:可伸缩、稳健且硬件感知的推测解码

TL;DR这篇研究论文介绍了 Sequoia,一种可扩展、稳健且硬件感知的算法,用于大型语言模型的推理加速。通过引入动态规划算法来寻找被推测的标记的最佳树结构,通过采样和验证方法实现鲁棒的推测性能,以及通过自动选择给定硬件平台的标记树大小和深度来优化硬件感知的树优化器,Sequoia 提高了 Llama2-7B、Llama2-13B 和 Vicuna-33B 在 A100 上的解码速度,分别达到 4.04 倍、3.84 倍和 2.37 倍,并在 L40 上将 Llama2-70B 的卸载速度提高了 10.33 倍。