Jul, 2024

加速大型语言模型推理的多令牌联合预测解码

TL;DR改进了基于变压器的大语言模型的推理速度和效率,通过将多个标记关联起来并使用验证步骤进行加速和近似,从而实现更好的输出困惑度和效率。