Jun, 2024

QCQA:质量和容量感知的分组查询注意力

TL;DR提出了一种考虑质量和能力的查询头分组的方法,用于在自回归大型语言模型推断中进行关键值缓存优化。该方法能够以较少的关键值缓存需求达到与其他方法相似的准确性,并且在细调后较其他方法具有较高的准确性。