Nov, 2022

通过推测解码从 Transformer 中实现快速推断

TL;DR本文提出了一种名为 “speculative decoding” 的算法,通过逐步并行地计算,采样自动回归模型可更快,同时采用了采样方法和一些新的技术,使得不改变分布的情况下,从大模型中精确解码变得更快,从而实现了不需要重新训练或架构更改即可支持现有模型的加速。在 T5-XXL 模型上的比较表明,该方法可以实现 2-3 倍的加速,而输出仍然与标准 T5X 实现相同。