Mar, 2025
长上下文大语言模型的成本最优分组查询注意力
Cost-Optimal Grouped-Query Attention for Long-Context LLMs
TL;DR本研究解决了现有大型语言模型(LLMs)在处理长上下文时对上下文长度和注意力头配置的忽视。我们提出了一种系统比较不同参数规模、上下文长度和注意力头配置的方法,并扩展了现有的缩放方法,以指南成本最优的LLM构建。研究结果表明,在处理长序列时,较大的模型与较少的注意力头能够以更低的计算和内存成本实现更低的损失,为实际LLMs的发展提供了重要启示。