Jan, 2025

基于奖励引导的推测解码用于高效的大型语言模型推理

TL;DR本文提出了一种新的框架——奖励引导的推测解码(RSD),旨在提高大型语言模型(LLMs)推理的效率。通过将轻量的草稿模型与更强大的目标模型相结合,RSD在推理过程中引入控制偏差,从而优先考虑高奖励输出,且在资源利用与性能之间实现优化平衡。这种方法在复杂的推理基准测试中表现出显著的效率提升和准确性提高,适用于资源密集型的场景。