Feb, 2024

Chimera:融合所有令牌的无损解码方法用于加速大规模语言模型推理

TL;DR通过引入轻量级的草稿模型,Chimera 提出了一种用于投机采样的新型框架,以有效利用先前生成的令牌来预测后续单词,显著提高了大型语言模型在解码过程中的效率。