关键词grouped-query attention
搜索结果 - 5
  • ICML优化的分组查询注意机制用于变形金刚
    PDF13 days ago
  • LLM 中高效压缩 KV 头
    PDF23 days ago
  • Transformer 技巧:去除跳过机制的权重
    PDF3 months ago
  • Mistral 7B
    PDF9 months ago
  • GQA:从多头检查点训练广义多查询 Transformer 模型
    PDFa year ago
Prev
Next