Mar, 2025
九尾狐:一种在推测解码中优先处理早期标记的混合架构
Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative
Decoding
TL;DR本研究针对现有推测解码方法中部分标记同等重要性的假设进行了分析,提出早期标记在生成序列中更为重要。通过引入Gumiho混合模型,结合了串行和并行头的结构,针对早期标记使用复杂的Transformer架构以提高准确性,并对后期标记使用轻量级的MLP头以增强效率,显著提升了模型的整体性能。