Feb, 2023

利用投机抽样加速大型语言模型解码

TL;DR介绍了一种基于 “假设采样” 的算法,将 Transformer 解码加速 2 至 2.5 倍,同时保持样本质量和预测分布。