Transformer 技巧:去除跳过机制的权重
通过增加中间的键值头数目,我们提出了一种组合查询注意力 (GQA) 的方法,它是多查询注意力 (MQA) 的推广,能够实现训练速度和质量之间的平衡。
May, 2023
提出了一种激活信息驱动的方法 AsymGQA,将 MHA 不对称地分组为 GQA,并在模型性能方面取得了较好的表现。该方法解决了 GQA 在模型性能和硬件效能之间的权衡问题。
Jun, 2024
使用交叉层注意力(CLA)设计可以进一步减小关键 - 值缓存的大小,而几乎保持与未修改 MQA 相同的准确性,在从头开始训练 1B 和 3B 参数模型的实验中证明 CLA 在内存 / 准确性权衡方面提供了帕累托改进,使得推断能处理比传统 MQA 更长的序列长度和更大的批次大小
May, 2024
GQKVA 是一种多功能方法,旨在加速 transformer 的预训练并减小模型大小,其实验结果表明 GQKVA 在图像分类任务中可以提高大约 0.3% 的准确度并减小约 4% 的模型大小。
Nov, 2023
通过对非必要的 attention layers 进行选择性去除,本文提出了一种简化视觉 transformer 并减少计算负载的新策略,通过熵的考虑,将不具信息量的 attention layers 整合到相应的 MLP 中,实现仅在某些 transformer blocks 中使用 MLP,实验结果显示该方法可以提高 DeiT-B 的吞吐量和内存限制,并在不影响性能的情况下去除 40% 的 attention layer。
Apr, 2024
通过使用基于相似性的度量标准,本文研究了 Transformer 中不同模块(如 Blocks、MLP 和 Attention 层)之间的冗余性变化,发现一大部分 Attention 层可以被安全剪枝,从而降低内存和计算成本,并提出了一种同时舍弃 Attention 和 MLP 层的方法,进一步提升性能和降低比率。
Jun, 2024
在本文中,我们探索了 Key-Value 缓存的低秩特性,并提出了一种压缩 Key-Value 头部的新方法,该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能,为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。
Jun, 2024
本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法,新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果,同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍,在掩蔽语言模型上提升了 4.8 倍。
Feb, 2022
本研究提出了一种混合压缩模型 LoRAP,通过输入激活加权奇异值分解方法和基于低秩度差异的参数分配方案,增强了 Transformer 模型中 Multi-Head Self-Attention 子层的低秩特性,并提出了无梯度的结构化通道剪枝方法用于 Feed-Forward Network 子层,实验证明我们的提议在多重压缩比下优于之前的结构化压缩方法。
Apr, 2024
Transformer-VQ 是一种仅有解码器的 Transformer 模型,通过向量量化的键和新颖的缓存机制实现了线性时间内的高效 softmax 密集自注意力计算。在大规模实验中,Transformer-VQ 在质量方面表现出强大的竞争力,在 Enwik8(0.99 bpb)、PG-19(26.6 ppl)和 ImageNet64(3.16 bpb)上取得了优秀的结果。
Sep, 2023