Aug, 2024

自适应草稿长度的并行推测性解码

TL;DR本研究解决了现有推测性解码方法中目标模型与草稿模型异步执行导致的互等问题。提出的PEARL框架通过预验证和后验证策略并行化草稿阶段和验证阶段,实现了适应性草稿长度,从而显著提高了解码速度,实验表明相较于传统方法,速度提升可达3.79倍。