GAU-based 模型的实现和实验的补充材料

May, 2022

GAU-based 模型的实现和实验的补充材料

Supplementary Material: Implementation and Experiments for GAU-based Model

Zhenjie Liu

TL;DR本文重新分析了 Google 在今年 2 月提出的 Transformer 变种 FLASH 的实现细节；并在此基础上，提出一种基于 GAU 的模型，并在中文语料库上进行预训练。CLUE 基准测试结果表明，该模型的开发平均分为 75.02，在速度提高 45％的情况下，比 RoFormerV1 高 1％，并与 RoFormerV2 相当有竞争力。

Abstract

In February this year Google proposed a new transformer variant called FLASH, which has a faster speed, lower VRAM footprint and better performance. This is achieved by designing a performant layer named gau (Gat

transformer gau pre-training chinese corpus clue benchmark

发现论文，激发创造

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022

通用图形 Transformer 自注意力网络

本文介绍了一种基于 Transformer 的 GNN 模型，叫做 UGformer，用于学习图表示。UGformer 有两个变体，第一个变体利用 Transformer 对每个输入节点的一组采样邻居进行编码，第二个变体利用 Transformer 对所有输入节点进行编码。实验结果表明，第一个变体在归纳和非监督转导设置下实现了基准数据集上的最新最准确统计，第二个变体在归纳文本分类中获得了最高准确率。

Sep, 2019

FlashAttention-2：更快的注意力计算，更好的并行和工作分割

使用 FlashAttention 和 FlashAttention-2 算法来提高模型的效率

Jul, 2023

高斯自适应注意力是你所需的一切：跨多种模态的强大情境表示

多头高斯自适应注意力机制（GAAM）和高斯自适应变换器（GAT）能够增强跨多种模态（包括语音、文本和视觉）的信息聚合，有效提升模型性能，特别是在处理高度非平稳数据时的准确度可以提升 20% 左右，并通过识别特征空间中的关键元素，进一步展示了模型的适应性和潜力。GAAM 不仅兼容基于点积的注意力模型，而且参数较少，展现了其对现有注意力框架的提升能力和潜在价值。通过实验证明，GAAM 在多种任务上具备出色的适应性和效果，包括情感识别、图像分类和文本分类，从而显示出其在处理多模态数据方面的健壮性和多功能性。此外，该研究还引入了重要性因子（IF），一种基于学习的度量指标，增强了 GAAM 方法训练模型的可解释性。总体而言，GAAM 代表了跨多模态的注意力模型在性能和可解释性方面的进展。

Jan, 2024

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式，其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下，我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍，对于长度为 8k 和 16k 的序列。

Jun, 2023

FastFormers: 高效 Transformer 模型的自然语言理解

本研究提出了 FastFormers 来加快基于 Transformer 模型的 NLU 任务的推理效率，可以通过运用知识蒸馏、结构剪枝和数值优化等方法，将预处理模型在 CPU 和 GPU 上的速度提高至 9.8-233.9 倍，节省成本的同时降低能耗。

Oct, 2020

神经机器翻译的高效推断

该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法，可以在不降低翻译质量的情况下，在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速，并将参数数量减少 25%。

Oct, 2020

FAST: 可因子化注意力提升 Transformer 速度

通过引入可分解的关注机制，我们将注意力机制的计算和内存复杂度从 O (N^2) 降低到 O (N)，并保持了注意力矩阵的完整表示，具有稀疏性和全连接关系。经过各种标准设置的测试，结果表明我们的注意力机制具有稳定的性能，并在自我注意力被使用的多种应用领域中具有重要潜力。

Feb, 2024

FlashAttention: 带 IO 感知的快速、节省内存的精确注意力机制

提出了 FlashAttention，一种 IO 感知的确切关注算法。FlashAttention 使用平铺减少 GPU 高带宽内存（HBM）和 GPU 片上 SRAM 之间的内存读取 / 写入次数，并可扩展为块状稀疏关注。FlashAttention 使 Transformers 速度提高，使其具有更长的上下文并获得更高质量的模型，以及实现了 Path-X 挑战的首个 Transformers。

May, 2022