缩放 Transformers 中的稀疏已足够

Nov, 2021

Sparse is Enough in Scaling Transformers

Sebastian Jaszczur, Aakanksha Chowdhery, Afroz Mohiuddin, Łukasz Kaiser, Wojciech Gajewski...

TL;DR本研究提出了一种用于构建下一代 Transformer 模型的方法，即利用稀疏层进行有效缩放和高效执行非批量解码。结果表明，这种模型在拥有相同参数数量的情况下，可以获得与标准 Transformer 相同的效果，并且在长文本摘要方面表现优异。

Abstract

large transformer models yield impressive results on many tasks, but are expensive to train, or even fine-tune, and so slow at decoding that their use and study becomes out of reach. We address this problem by leveraging →

large transformer models sparsity scaling transformers unbatched decoding long text summarization

发现论文，激发创造

利用稀疏变换器生成长序列

本文介绍了一种称为 Sparse Transformers 的神经网络架构，该架构通过稀疏的注意力矩阵因式分解和其他一些技术，可以更有效地处理长序列等任务，并在 Enwik8，CIFAR-10，和 ImageNet-64 等基准数据集上创造出新的最优表现。

Apr, 2019

训练稀疏翻译模型的技巧

本文提出了使用 BASELayers 的稀疏缩放架构来缓解多任务学习中高资源任务偏差的问题，并通过温度加热机制和密集预训练两种技术来提高多语言机器翻译的性能。该方法在两个多语言翻译基准测试中的收敛速度比标准的 BASELayers 和密集缩放基线快了两倍以上。

Oct, 2021

大型模型是简明学习者：训练转换器中的激活稀疏性

通过实验证明机器学习模型的机制使得 transformer 架构的激活图稀疏化，进而提出一种可以显著降低计算量并提高效率的方式。

Oct, 2022

稀疏二进制变换器用于多元时间序列建模

通过应用稀疏和二元权重变换器在多变量时间序列问题上，我们表明轻量级模型能够获得与相同结构的稠密浮点变换器相当的准确性。我们的模型在分类、异常检测和单步预测三个时间序列学习任务上取得了良好的结果，并应用了两种修改以减少注意力机制的计算复杂度，从而大大减少变换器中非零操作的数量。我们在参数数量、存储大小和浮点运算量（FLOPs）等多个度量标准上测量了我们的方法的计算节约，并展示了高达 53 倍的存储大小减少和高达 10.5 倍的 FLOPs 减少。

Aug, 2023

基础模型稀疏连接的扩展规律

我们探讨了参数稀疏性对在大规模数据集上训练的 Transformer（即 “基础模型”）的扩展行为的影响，涉及视觉和语言领域。我们首次确定了描述权重稀疏性、非零参数数量和训练数据量之间关系的扩展定律，并通过 ViT/JFT-4B 和 T5/C4 在模型和数据规模上进行了实证验证；这些结果使我们能够表征 “最佳稀疏度”，即对于给定的有效模型大小和训练预算，可以在其中获得最佳性能的稀疏度水平。我们发现，在非零参数数量固定时，最佳稀疏度随着用于训练的数据量增加而增加。我们还将研究扩展到了不同的稀疏结构（如硬件友好的 n:m 模式）和策略（如从预训练的稠密模型开始）。我们的发现揭示了在各种参数和计算设置中权重稀疏性的能力和局限性，为利用稀疏性提高计算效率提供了理论理解和实际意义。

Sep, 2023

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

基于变形器的学习可证明具有低秩和稀疏性：一层分析

这篇论文首次从理论上分析了低秩和稀疏性在一层 Transformer 中的特性，并通过数量化可训练参数的梯度更新得出了梯度具有低秩性的结论，同时论文还分析了模型剪枝对泛化能力的影响以及对计算效率的改善。

Jun, 2024

稀疏自编码器的扩展和评估

稀疏自编码器通过重构来自稀疏瓶颈层的激活，提供了一种从语言模型中提取可解释特征的有前途的无监督方法。我们提出使用 k - 稀疏自编码器来直接控制稀疏性，简化调整并改进重构 - 稀疏性的界限，并引入一些评估特征质量的新度量标准，这些度量标准在自编码器的规模大小上通常会有所改善。

Jun, 2024

用于大型稀疏模型的哈希层

本研究通过使用哈希方法对大型 Transformer 模型中使用不同输入参数的稀疏层进行了训练，通过修改前馈层对序列中的当前标记进行哈希以便将其哈希到不同的权重集中，进一步证明此方法可以在不需要额外路由参数或负载平衡损失等的情况下超越或与 Switch Transformers 和 BASE Layers 等学习路由混合专家方法竞争，同时研究了不同的哈希技术、哈希大小和输入特征的表现，并表明了本研究的方法可以在大规模语言建模和对话任务、下游微调任务中表现出色。

Jun, 2021

多尺度 Transformer 语言模型

本文研究了多尺度变压器语言模型，提出了三种不同的架构，并实验性地证明了多尺度表示在内存效率，计算时间和困惑度方面的优势，具有特殊的吸引力。

May, 2020