Mar, 2025

TokenButler:令牌重要性可预测

TL;DR本研究解决了大语言模型中键值缓存的效率瓶颈,尤其是识别和优先处理重要令牌的挑战。通过引入TokenButler,一个高粒度、查询感知的预测器,该方法能够动态识别关键令牌,从而在相对领先的方法中提高超过8%的困惑度和下游准确性,具有显著的潜在影响。