超越均匀查询分布：关键驱动的分组查询注意力

Aug, 2024

超越均匀查询分布：关键驱动的分组查询注意力

Beyond Uniform Query Distribution: Key-Driven Grouped Query Attention

Zohaib Khan, Muhammad Khaquan, Omer Tafveez, Agha Ali Raza

TL;DR本研究解决了当前自注意力机制在长序列任务中面临的内存限制问题。提出了关键分布GQA和动态关键分布GQA两种新方法，通过利用关键头的范数信息来优化查询分配，并且实验结果显示这些改进能够提高ViT-L模型的准确率，提升幅度可达8%。

Abstract

The Transformer architecture has revolutionized deep learning through its Self-Attention mechanism, which effectively captures contextual information. However, the memory footprint of Self-Attention presents significant challenges for long-sequence tasks. →

发现论文，激发创造

GroSS：用于群组化架构搜索的群组大小串级分解

本文提出了一种能够探索神经网络内部分组卷积结构的新方法，GroSS是第一个能够训练单层内不同组数以及所有层之间所有可能组合的方法，这使得GroSS能够同时训练整个分组卷积架构搜索空间。通过在多个数据集和网络上进行架构搜索，GroSS能够更有效、高效地搜索分组卷积结构。

Dec, 2019

用于高效本地注意力的学习查询

本文提出了一种名为query and attend（QnA）的新型shift-invariant local attention层，将其并入分层视觉transformer模型，并证明其在速度和内存复杂度方面的改善，同时又能实现与最先进的模型相当的准确度。

Dec, 2021

动态分组变换器：具有动态分组注意力的通用视觉变换器骨干网络

该论文提出了一种动态分组注意力(DG-Attention)和一个通用的DGT视觉转换器的背景，可以在多个常见的视觉任务中超越现有技术，并动态地将所有查询分成多个组，为每个组选择最相关的密钥/值。

Mar, 2022

探索有意图的键值查询模型空间

该论文探讨了一种新的神经网络模块，称为 Keys-Values-Queries（KVQ）空间，它是对注意力（Attention）思想的扩展，能够高效地近似许多真实问题，其中包括解决标准最小二乘问题，并成功地应用于从 few-shot learning 到 policy distillation 等各种任务。

May, 2023

GQA：从多头检查点训练广义多查询Transformer模型

通过增加中间的键值头数目，我们提出了一种组合查询注意力 (GQA) 的方法，它是多查询注意力 (MQA) 的推广，能够实现训练速度和质量之间的平衡。

May, 2023

基于群组混合注意力的视觉Transformer的进展

基于Group-Mix Attention的GroupMixFormer模型在图像分类、物体检测和语义分割方面表现出色，参数较现有模型更少，例如GroupMixFormer-L在ImageNet-1K上取得86.2%的Top-1准确率，GroupMixFormer-B在ADE20K上取得51.2%的mIoU。

Nov, 2023

使用跨层注意力减小Transformer键-值缓存大小

使用交叉层注意力（CLA）设计可以进一步减小关键-值缓存的大小，而几乎保持与未修改MQA相同的准确性，在从头开始训练1B和3B参数模型的实验中证明CLA在内存/准确性权衡方面提供了帕累托改进，使得推断能处理比传统MQA更长的序列长度和更大的批次大小

May, 2024

QCQA：质量和容量感知的分组查询注意力

提出了一种考虑质量和能力的查询头分组的方法，用于在自回归大型语言模型推断中进行关键值缓存优化。该方法能够以较少的关键值缓存需求达到与其他方法相似的准确性，并且在细调后较其他方法具有较高的准确性。

Jun, 2024

优化的分组查询注意机制用于变形金刚

提出了一种激活信息驱动的方法AsymGQA，将MHA不对称地分组为GQA，并在模型性能方面取得了较好的表现。该方法解决了GQA在模型性能和硬件效能之间的权衡问题。

Jun, 2024

Transformer中的加权分组查询注意力

我们提出了一种称为加权分组查询注意力（WGQA）的分组查询注意力的变体，引入了新的可学习参数来增强T5解码器注意力块中的键和值头，使模型能够在微调期间进行加权平均，并在推理过程中无需额外开销与传统的多头注意力（MHA）性能相当。

Jul, 2024