Jun, 2024
QCQA:质量和容量感知的分组查询注意力
QCQA: Quality and Capacity-aware grouped Query Attention
Vinay Joshi, Prashant Laddha, Shambhavi Sinha, Om Ji Omer, Sreenivas Subramoney
TL;DR提出了一种考虑质量和能力的查询头分组的方法,用于在自回归大型语言模型推断中进行关键值缓存优化。该方法能够以较少的关键值缓存需求达到与其他方法相似的准确性,并且在细调后较其他方法具有较高的准确性。