Feb, 2024

高召回率大约前 k 个预估用于高效 LLM 推理

TL;DR使用大型语言模型生成的自回归解码在加速器(GPU/TPU)上通常受限于内存,而通过适当训练模型以在前馈层的高 $k$ 部分上操作,从而减少模型参数传输和减少延迟的潜力受到数据依赖性和矩阵运算的限制。为解决这些问题,我们引入了 HiRE(高召回率的近似 top-k 估计),它包括两个创新组件:一种压缩方案以低成本预测具有高召回率的前 $k$ 行 / 列,并进行预测子集的全算;DA-TOP-$k$:一种高效的多设备近似 top-$k$ 运算符。在 10 亿参数模型上,运用 HiRE 到 softmax 和前馈层,几乎达到了预训练和下游准确性匹配,并在单个 TPUv5e 设备上加速了推理延迟 1.47 倍。