May, 2024

加速动态猜测长度的猜测解码

TL;DRDISCO 是一种动态调整推断长度优化方法,通过使用分类器在每个迭代中动态调整推断长度,从而提供推断质量的同时实现平均 10.3% 的速度增益。