BriefGPT.xyz
Ask
alpha
关键词
grouped-query attention (gqa)
搜索结果 - 1
使用跨层注意力减小 Transformer 键 - 值缓存大小
使用交叉层注意力(CLA)设计可以进一步减小关键 - 值缓存的大小,而几乎保持与未修改 MQA 相同的准确性,在从头开始训练 1B 和 3B 参数模型的实验中证明 CLA 在内存 / 准确性权衡方面提供了帕累托改进,使得推断能处理比传统 M
→
PDF
2 months ago
Prev
Next