BriefGPT.xyz
Ask
alpha
关键词
query heads grouping
搜索结果 - 1
QCQA:质量和容量感知的分组查询注意力
提出了一种考虑质量和能力的查询头分组的方法,用于在自回归大型语言模型推断中进行关键值缓存优化。该方法能够以较少的关键值缓存需求达到与其他方法相似的准确性,并且在细调后较其他方法具有较高的准确性。
PDF
a month ago
Prev
Next