May, 2024

使用跨层注意力减小 Transformer 键 - 值缓存大小

TL;DR使用交叉层注意力(CLA)设计可以进一步减小关键 - 值缓存的大小,而几乎保持与未修改 MQA 相同的准确性,在从头开始训练 1B 和 3B 参数模型的实验中证明 CLA 在内存 / 准确性权衡方面提供了帕累托改进,使得推断能处理比传统 MQA 更长的序列长度和更大的批次大小