May, 2024

EMS-SD:高效的多样本猜测解码用于加速大型语言模型

TL;DR通过提出一种新方法,解决多样本推断速度提高中可变数量的 token 导致效率下降的问题,无需增加计算和内存开销,并且可以处理不一致的样本预测 token 的情况。