超越均匀查询分布:关键驱动的分组查询注意力
本文提出了一种能够探索神经网络内部分组卷积结构的新方法,GroSS是第一个能够训练单层内不同组数以及所有层之间所有可能组合的方法,这使得GroSS能够同时训练整个分组卷积架构搜索空间。通过在多个数据集和网络上进行架构搜索,GroSS能够更有效、高效地搜索分组卷积结构。
Dec, 2019
本文提出了一种名为query and attend(QnA)的新型shift-invariant local attention层,将其并入分层视觉transformer模型,并证明其在速度和内存复杂度方面的改善,同时又能实现与最先进的模型相当的准确度。
Dec, 2021
该论文提出了一种动态分组注意力(DG-Attention)和一个通用的DGT视觉转换器的背景,可以在多个常见的视觉任务中超越现有技术,并动态地将所有查询分成多个组,为每个组选择最相关的密钥/值。
Mar, 2022
该论文探讨了一种新的神经网络模块,称为 Keys-Values-Queries(KVQ)空间,它是对注意力(Attention)思想的扩展,能够高效地近似许多真实问题,其中包括解决标准最小二乘问题,并成功地应用于从 few-shot learning 到 policy distillation 等各种任务。
May, 2023
通过增加中间的键值头数目,我们提出了一种组合查询注意力 (GQA) 的方法,它是多查询注意力 (MQA) 的推广,能够实现训练速度和质量之间的平衡。
May, 2023
基于Group-Mix Attention的GroupMixFormer模型在图像分类、物体检测和语义分割方面表现出色,参数较现有模型更少,例如GroupMixFormer-L在ImageNet-1K上取得86.2%的Top-1准确率,GroupMixFormer-B在ADE20K上取得51.2%的mIoU。
Nov, 2023
使用交叉层注意力(CLA)设计可以进一步减小关键-值缓存的大小,而几乎保持与未修改MQA相同的准确性,在从头开始训练1B和3B参数模型的实验中证明CLA在内存/准确性权衡方面提供了帕累托改进,使得推断能处理比传统MQA更长的序列长度和更大的批次大小
May, 2024
提出了一种考虑质量和能力的查询头分组的方法,用于在自回归大型语言模型推断中进行关键值缓存优化。该方法能够以较少的关键值缓存需求达到与其他方法相似的准确性,并且在细调后较其他方法具有较高的准确性。
Jun, 2024
提出了一种激活信息驱动的方法AsymGQA,将MHA不对称地分组为GQA,并在模型性能方面取得了较好的表现。该方法解决了GQA在模型性能和硬件效能之间的权衡问题。
Jun, 2024
我们提出了一种称为加权分组查询注意力(WGQA)的分组查询注意力的变体,引入了新的可学习参数来增强T5解码器注意力块中的键和值头,使模型能够在微调期间进行加权平均,并在推理过程中无需额外开销与传统的多头注意力(MHA)性能相当。
Jul, 2024