May, 2024

S3D:一种用于低内存 GPU 的简单且具有成本效益的自我推测解码方案

TL;DRSkippy Simultaneous Speculative Decoding (S3D) 是一种成本有效、基于同时多令牌解码和中间层跳跃的自我推测 SD 方法,与最近的有效开源 SD 系统相比,它在性能 - 内存比上取得了最佳表现,而且只需要最小的架构改变和训练数据。利用我们的内存效率,我们基于 Phi-3 创建了一个更小、更高效的 SD 模型,它比量化的 EAGLE 模型快 1.4 到 2 倍,使用半精度操作,同时使用更少的 VRAM。