Transformer中的加权分组查询注意力

Jul, 2024

Transformer中的加权分组查询注意力

Weighted Grouped Query Attention in Transformers

Sai Sena Chinnakonduru, Astarag Mohapatra

TL;DR我们提出了一种称为加权分组查询注意力（WGQA）的分组查询注意力的变体，引入了新的可学习参数来增强T5解码器注意力块中的键和值头，使模型能够在微调期间进行加权平均，并在推理过程中无需额外开销与传统的多头注意力（MHA）性能相当。

Abstract

The attention mechanism forms the foundational blocks for transformer language models. Recent approaches show that scaling the model achie

发现论文，激发创造

快速Transformer解码：仅需要一个写头

本文提出了一种多查询关注机制，使用这种机制可以降低增量解码的内存需求，并通过实验验证了这种关注机制可以使解码速度更快，同时只会导致较小的质量损失。

Nov, 2019

基于Top-k注意力的内存高效Transformer

本文介绍了一种简单而高效的用于vanilla attention的逼近算法，基于对查询进行分块的计算，在多个数据集上的评估表明其准确性接近于vanilla attention。

Jun, 2021

Transformer模型的轻松注意力

本文通过实验表明，构建基于 relaxed attention 的 transformer 架构，可以通过抑制自动回归 transformer 解码器的内部语言模型，实现有效地整合外部语言模型，并且提高了通用 transformer 架构的正则化能力。

Sep, 2022

AttentionViz: Transformer 注意力的全局视图

本文介绍了一种新的可视化技术，旨在帮助研究人员理解转换器中的自我注意机制，并演示了基于query-key嵌入的交互式可视化工具AttentionViz，以改进模型的理解和提供关于查询-键交互的新见解。

May, 2023

GQA：从多头检查点训练广义多查询Transformer模型

通过增加中间的键值头数目，我们提出了一种组合查询注意力 (GQA) 的方法，它是多查询注意力 (MQA) 的推广，能够实现训练速度和质量之间的平衡。

May, 2023

高效远程Transformer：你需要参与更多，但不一定是每一层

提出了一种名为MASFormer的变种Transformer模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的Transformer模型相媲美的性能，同时显著降低计算成本（多达75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

使用跨层注意力减小Transformer键-值缓存大小

使用交叉层注意力（CLA）设计可以进一步减小关键-值缓存的大小，而几乎保持与未修改MQA相同的准确性，在从头开始训练1B和3B参数模型的实验中证明CLA在内存/准确性权衡方面提供了帕累托改进，使得推断能处理比传统MQA更长的序列长度和更大的批次大小

May, 2024

MLKV：用于内存高效Transformer解码的多层键值头

通过多层键-值共享方式，将键值缓存扩展到变压器层，进一步降低内存使用量，提高变压器模型在大规模场景中的效率。

Jun, 2024

优化的分组查询注意机制用于变形金刚

提出了一种激活信息驱动的方法AsymGQA，将MHA不对称地分组为GQA，并在模型性能方面取得了较好的表现。该方法解决了GQA在模型性能和硬件效能之间的权衡问题。

Jun, 2024

超越均匀查询分布：关键驱动的分组查询注意力

本研究解决了当前自注意力机制在长序列任务中面临的内存限制问题。提出了关键分布GQA和动态关键分布GQA两种新方法，通过利用关键头的范数信息来优化查询分配，并且实验结果显示这些改进能够提高ViT-L模型的准确率，提升幅度可达8%。

Aug, 2024