Mar, 2024

CHAI: 集群化头部注意力用于高效的 LLM 推断

TL;DR基于大型语言模型的多头注意力机制的高冗余性,提出了一种新的聚类头自注意力机制 (CHAI),能够在运行时显著降低模型的存储和计算需求,从而减少内存需求 21.4% 和推理时间延迟最多 1.73 倍。