GAU-based 模型的实现和实验的补充材料
通过引入数据依赖的门控机制,我们开发了一种硬件高效的并行形式,使得门控线性注意力(GLA)Transformers 在适度规模的语言建模中表现竞争力,并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。
Dec, 2023
本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法,新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果,同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍,在掩蔽语言模型上提升了 4.8 倍。
Feb, 2022
本文介绍了一种基于 Transformer 的 GNN 模型,叫做 UGformer,用于学习图表示。UGformer 有两个变体,第一个变体利用 Transformer 对每个输入节点的一组采样邻居进行编码,第二个变体利用 Transformer 对所有输入节点进行编码。实验结果表明,第一个变体在归纳和非监督转导设置下实现了基准数据集上的最新最准确统计,第二个变体在归纳文本分类中获得了最高准确率。
Sep, 2019
多头高斯自适应注意力机制(GAAM)和高斯自适应变换器(GAT)能够增强跨多种模态(包括语音、文本和视觉)的信息聚合,有效提升模型性能,特别是在处理高度非平稳数据时的准确度可以提升 20% 左右,并通过识别特征空间中的关键元素,进一步展示了模型的适应性和潜力。GAAM 不仅兼容基于点积的注意力模型,而且参数较少,展现了其对现有注意力框架的提升能力和潜在价值。通过实验证明,GAAM 在多种任务上具备出色的适应性和效果,包括情感识别、图像分类和文本分类,从而显示出其在处理多模态数据方面的健壮性和多功能性。此外,该研究还引入了重要性因子(IF),一种基于学习的度量指标,增强了 GAAM 方法训练模型的可解释性。总体而言,GAAM 代表了跨多模态的注意力模型在性能和可解释性方面的进展。
Jan, 2024
我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式,其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度,我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下,我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍,对于长度为 8k 和 16k 的序列。
Jun, 2023
本研究提出了 FastFormers 来加快基于 Transformer 模型的 NLU 任务的推理效率,可以通过运用知识蒸馏、结构剪枝和数值优化等方法,将预处理模型在 CPU 和 GPU 上的速度提高至 9.8-233.9 倍,节省成本的同时降低能耗。
Oct, 2020
该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法,可以在不降低翻译质量的情况下,在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速,并将参数数量减少 25%。
Oct, 2020
通过引入可分解的关注机制,我们将注意力机制的计算和内存复杂度从 O (N^2) 降低到 O (N),并保持了注意力矩阵的完整表示,具有稀疏性和全连接关系。经过各种标准设置的测试,结果表明我们的注意力机制具有稳定的性能,并在自我注意力被使用的多种应用领域中具有重要潜力。
Feb, 2024
提出了 FlashAttention,一种 IO 感知的确切关注算法。FlashAttention 使用平铺减少 GPU 高带宽内存(HBM)和 GPU 片上 SRAM 之间的内存读取 / 写入次数,并可扩展为块状稀疏关注。FlashAttention 使 Transformers 速度提高,使其具有更长的上下文并获得更高质量的模型,以及实现了 Path-X 挑战的首个 Transformers。
May, 2022