May, 2024

DynaMo: 动态多词采样加速语言模型推断

TL;DRDynaMo是一个多令牌预测语言模型套件,通过在预测联合概率分布的基础上动态预测多个令牌来减少净推理时间,实现了与基准(Pythia-6.9B)相同质量的生成文本,并获得2.57倍的加速,仅有5.87%和2.67%的参数和训练时间开销。