Feb, 2024

投机式流处理: 高速LLM推理无需辅助模型

TL;DRSpeculative Streaming是一种单一模型的推测解码方法,通过将起草融入目标模型,将微调目标从下一个标记预测改为未来n-gram预测的目标,以在总结、结构查询和语义表示等多个任务中提高1.8-3.1倍的解码速度,而不损失生成质量。此外,Speculative Streaming在参数效率方面表现出色,与Medusa-style架构相比,使用的额外参数较少,适用于资源受限的设备。