Nov, 2024
草稿模型知道何时停止:一种用于投机解码的自我验证长度策略
Draft Model Knows When to Stop: A Self-Verification Length Policy for
Speculative Decoding
TL;DR本研究针对投机解码(SD)中传统方法固定草稿长度的问题,提出了一种新的难度感知动态草稿长度策略SVIP。SVIP能够根据草稿词元分布的熵自适应调整草稿序列长度,实验结果表明其在主要SD基准测试中较基线方法最高可实现20\%的墙面时间加速,具有显著的加速效果和兼容性。