grouped-query attention | BriefGPT

关键词grouped-query attention

搜索结果 - 5

ICML优化的分组查询注意机制用于变形金刚
提出了一种激活信息驱动的方法 AsymGQA，将 MHA 不对称地分组为 GQA，并在模型性能方面取得了较好的表现。该方法解决了 GQA 在模型性能和硬件效能之间的权衡问题。
PDF13 days ago
LLM 中高效压缩 KV 头
在本文中，我们探索了 Key-Value 缓存的低秩特性，并提出了一种压缩 Key-Value 头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。
PDF23 days ago
Transformer 技巧：去除跳过机制的权重
使用等效的版本适用于多查询关注和分组查询关注的无跳过变压器，从而降低其计算和内存复杂性。
PDF3 months ago
Mistral 7B
Mistral 7B v0.1 是一个拥有 70 亿参数的语言模型，通过使用分组查询注意力（GQA）和滑动窗口注意力（SWA）提高了推理效率，并且还提供了一个经过调整的模型 Mistral 7B -- Instruct，在人类和自动化评测中
PDF9 months ago
GQA：从多头检查点训练广义多查询 Transformer 模型
通过增加中间的键值头数目，我们提出了一种组合查询注意力 (GQA) 的方法，它是多查询注意力 (MQA) 的推广，能够实现训练速度和质量之间的平衡。
PDFa year ago