混合深度：在基于 Transformer 的语言模型中动态分配计算资源

Apr, 2024

混合深度：在基于 Transformer 的语言模型中动态分配计算资源

Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

David Raposo, Sam Ritter, Blake Richards, Timothy Lillicrap, Peter Conway Humphreys...

TL;DR本文通过动态分配计算资源到序列的特定位置，优化了模型深度中不同层级的计算分配，从而实现了对计算资源的灵活分配和预测性控制。这种方法在保持总计算预算的同时，能够以非均匀的方式在时间和模型深度维度上高效地分配计算资源，并且以相当于基准性能的情况下，大大减少了每次前向传播所需的计算量，提高了后期采样的速度。

Abstract

transformer-based language models spread flops uniformly across input sequences. In this work we demonstrate that transformers can instead learn to dynamically allocate →

transformer-based language models flops compute allocation top-k routing mechanism predictable compute expenditure

发现论文，激发创造

自适应深度变压器

本文介绍了一种 Transformer 模型，它可以在网络的不同阶段进行输出预测，并调整每个步骤所应用的不同图层，以调整计算量和模型容量。通过对 IWSLT 德英翻译的实验，我们的方法与 well tuned 换基础变压器的精度相匹配，同时只使用不到四分之一的解码器层数。

Oct, 2019

Delta Keyword Transformer: 通过动态裁剪的多头自注意力将 Transformer 移植到边缘

该研究提出了一种动态剪枝方法，通过利用数据在不同时间点的稳定性来降低推理成本，减少了 Transformer 网络中 self-attention 操作的次数，从而在维持高准确率的同时大幅度降低了模型复杂度。

Mar, 2022

自适应计算模块：高效推理的细粒度条件计算

为了降低 Transformer 模型的计算成本，本文引入了自适应计算模块 (ACM)，它根据每个输入上的估计难度动态调整计算负载，通过用 ACM 替换层，显著降低了推理成本且不降低下游准确性。

Dec, 2023

快速深度自适应变压器

本文提出基于互信息和重构误差两种方法来测量输入词语的难度和估计相应的自适应深度，从而摆脱判停单元，并提高深度自适应模型的速度和稳定性。实验证明，该方法能够在保持高准确性的同时，加快原始 Transformer 速度（高达 7 倍），并提高效率和鲁棒性，相对于其他深度自适应方法具有显著优势。

Apr, 2020

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

可证明学习多头注意力层

从随机示例中学习多头注意力层的算法，给出了该问题的首个非平凡上下界。

Feb, 2024

Infor-Coef: 基于信息瓶颈的动态 Token 下采样方法，用于紧凑高效的语言模型

本文提出了 Infor-Coef 模型使得在 NLP 领域中，使用动态降采样和静态剪枝的方法，通过信息瓶颈损失进行优化，实现了 18 倍的计算速度提升，精度下降不到 8％，为压缩和加速基于 Transformer 的模型提供了一种有前途的方法。

May, 2023

逐点思考：Transformer 语言模型的隐藏计算

使用无意义的填充符号可以替代思维链，解决无法通过直接回答进行的两个难算法任务，但需要具体、密集的监督；同时，中间符号作为填充符号引发了对大型语言模型进行难以审查、隐藏计算的担忧。

Apr, 2024

基于内容的稀疏注意力路由转换网络

本研究提出了 Routing Transformer，它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块，将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$，并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。

Mar, 2020

带有动态 Token 池化的高效 Transformer

通过动态 Pooling 和自回归机制，使得 Transformer 模型在其计算资源内的表现更快更准确。

Nov, 2022