缩放 Transformers 中的稀疏已足够
本文介绍了一种称为 Sparse Transformers 的神经网络架构,该架构通过稀疏的注意力矩阵因式分解和其他一些技术,可以更有效地处理长序列等任务,并在 Enwik8,CIFAR-10,和 ImageNet-64 等基准数据集上创造出新的最优表现。
Apr, 2019
本文提出了使用 BASELayers 的稀疏缩放架构来缓解多任务学习中高资源任务偏差的问题,并通过温度加热机制和密集预训练两种技术来提高多语言机器翻译的性能。该方法在两个多语言翻译基准测试中的收敛速度比标准的 BASELayers 和密集缩放基线快了两倍以上。
Oct, 2021
通过应用稀疏和二元权重变换器在多变量时间序列问题上,我们表明轻量级模型能够获得与相同结构的稠密浮点变换器相当的准确性。我们的模型在分类、异常检测和单步预测三个时间序列学习任务上取得了良好的结果,并应用了两种修改以减少注意力机制的计算复杂度,从而大大减少变换器中非零操作的数量。我们在参数数量、存储大小和浮点运算量(FLOPs)等多个度量标准上测量了我们的方法的计算节约,并展示了高达 53 倍的存储大小减少和高达 10.5 倍的 FLOPs 减少。
Aug, 2023
我们探讨了参数稀疏性对在大规模数据集上训练的 Transformer(即 “基础模型”)的扩展行为的影响,涉及视觉和语言领域。我们首次确定了描述权重稀疏性、非零参数数量和训练数据量之间关系的扩展定律,并通过 ViT/JFT-4B 和 T5/C4 在模型和数据规模上进行了实证验证;这些结果使我们能够表征 “最佳稀疏度”,即对于给定的有效模型大小和训练预算,可以在其中获得最佳性能的稀疏度水平。我们发现,在非零参数数量固定时,最佳稀疏度随着用于训练的数据量增加而增加。我们还将研究扩展到了不同的稀疏结构(如硬件友好的 n:m 模式)和策略(如从预训练的稠密模型开始)。我们的发现揭示了在各种参数和计算设置中权重稀疏性的能力和局限性,为利用稀疏性提高计算效率提供了理论理解和实际意义。
Sep, 2023
提出了一种名为 MASFormer 的变种 Transformer 模型,它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系,又能在其余层使用稀疏注意力提高计算效率。实验结果表明,该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能,同时显著降低计算成本(多达 75%),并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。
Oct, 2023
这篇论文首次从理论上分析了低秩和稀疏性在一层 Transformer 中的特性,并通过数量化可训练参数的梯度更新得出了梯度具有低秩性的结论,同时论文还分析了模型剪枝对泛化能力的影响以及对计算效率的改善。
Jun, 2024
稀疏自编码器通过重构来自稀疏瓶颈层的激活,提供了一种从语言模型中提取可解释特征的有前途的无监督方法。我们提出使用 k - 稀疏自编码器来直接控制稀疏性,简化调整并改进重构 - 稀疏性的界限,并引入一些评估特征质量的新度量标准,这些度量标准在自编码器的规模大小上通常会有所改善。
Jun, 2024
本研究通过使用哈希方法对大型 Transformer 模型中使用不同输入参数的稀疏层进行了训练,通过修改前馈层对序列中的当前标记进行哈希以便将其哈希到不同的权重集中,进一步证明此方法可以在不需要额外路由参数或负载平衡损失等的情况下超越或与 Switch Transformers 和 BASE Layers 等学习路由混合专家方法竞争,同时研究了不同的哈希技术、哈希大小和输入特征的表现,并表明了本研究的方法可以在大规模语言建模和对话任务、下游微调任务中表现出色。
Jun, 2021