Transformer 技巧：去除跳过机制的权重

Apr, 2024

Transformer 技巧：去除跳过机制的权重

Transformer tricks: Removing weights for skipless transformers

Nils Graef

TL;DR使用等效的版本适用于多查询关注和分组查询关注的无跳过变压器，从而降低其计算和内存复杂性。

Abstract

He and Hofmann (arXiv:2311.01906) detailed a skipless transformer without the V and P (post-attention projection) linear layers, which reduces the total number of weights. However, this scheme is only applicable to MHA (multi-head attention), but not for MQA (→

skipless transformer multi-head attention multi-query attention grouped-query attention transformer tricks

发现论文，激发创造

GQA：从多头检查点训练广义多查询 Transformer 模型

通过增加中间的键值头数目，我们提出了一种组合查询注意力 (GQA) 的方法，它是多查询注意力 (MQA) 的推广，能够实现训练速度和质量之间的平衡。

May, 2023

优化的分组查询注意机制用于变形金刚

提出了一种激活信息驱动的方法 AsymGQA，将 MHA 不对称地分组为 GQA，并在模型性能方面取得了较好的表现。该方法解决了 GQA 在模型性能和硬件效能之间的权衡问题。

Jun, 2024

使用跨层注意力减小 Transformer 键 - 值缓存大小

使用交叉层注意力（CLA）设计可以进一步减小关键 - 值缓存的大小，而几乎保持与未修改 MQA 相同的准确性，在从头开始训练 1B 和 3B 参数模型的实验中证明 CLA 在内存 / 准确性权衡方面提供了帕累托改进，使得推断能处理比传统 MQA 更长的序列长度和更大的批次大小

May, 2024

GQKVA: 通过分组查询、键和值高效预训练 Transformer

GQKVA 是一种多功能方法，旨在加速 transformer 的预训练并减小模型大小，其实验结果表明 GQKVA 在图像分类任务中可以提高大约 0.3% 的准确度并减小约 4% 的模型大小。

Nov, 2023

MLP 可以成为优秀的 Transformer 学习器

通过对非必要的 attention layers 进行选择性去除，本文提出了一种简化视觉 transformer 并减少计算负载的新策略，通过熵的考虑，将不具信息量的 attention layers 整合到相应的 MLP 中，实现仅在某些 transformer blocks 中使用 MLP，实验结果显示该方法可以提高 DeiT-B 的吞吐量和内存限制，并在不影响性能的情况下去除 40% 的 attention layer。

Apr, 2024

Transformer 模型中的关键要素：并非所有的注意力都是必要的

通过使用基于相似性的度量标准，本文研究了 Transformer 中不同模块（如 Blocks、MLP 和 Attention 层）之间的冗余性变化，发现一大部分 Attention 层可以被安全剪枝，从而降低内存和计算成本，并提出了一种同时舍弃 Attention 和 MLP 层的方法，进一步提升性能和降低比率。

Jun, 2024

LLM 中高效压缩 KV 头

在本文中，我们探索了 Key-Value 缓存的低秩特性，并提出了一种压缩 Key-Value 头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。

Jun, 2024

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022

LoRAP：大型语言模型的 Transformer 子层应采用差异化结构压缩

本研究提出了一种混合压缩模型 LoRAP，通过输入激活加权奇异值分解方法和基于低秩度差异的参数分配方案，增强了 Transformer 模型中 Multi-Head Self-Attention 子层的低秩特性，并提出了无梯度的结构化通道剪枝方法用于 Feed-Forward Network 子层，实验证明我们的提议在多重压缩比下优于之前的结构化压缩方法。

Apr, 2024

Transformer-VQ: 基于向量量化的线性时间 Transformer

Transformer-VQ 是一种仅有解码器的 Transformer 模型，通过向量量化的键和新颖的缓存机制实现了线性时间内的高效 softmax 密集自注意力计算。在大规模实验中，Transformer-VQ 在质量方面表现出强大的竞争力，在 Enwik8（0.99 bpb）、PG-19（26.6 ppl）和 ImageNet64（3.16 bpb）上取得了优秀的结果。

Sep, 2023