Feb, 2025

FR-Spec: 通过频率排名的推测采样加速大词汇量语言模型

TL;DR本研究解决了现有推测采样方法在大词汇量语言模型(如Llama-3-8B)中效率大幅降低的问题。提出的FR-Spec框架通过压缩词汇空间并优化候选选择,减少了75%的语言模型头计算开销,同时保持最终输出分布的一致性。实验结果表明,该方法在多个数据集上较于最先进的EAGLE-2方法实现了平均1.12倍的加速。