关于在序列到序列模型中稀疏编码器输出的研究

Apr, 2020

关于在序列到序列模型中稀疏编码器输出的研究

On Sparsifying Encoder Outputs in Sequence-to-Sequence Models

Biao Zhang, Ivan Titov, Rico Sennrich

TL;DR利用 L0DROP 层来实现精简 Transformer 中 Encoder 输出的机制，可以在不降低结果质量的情况下减少 40-70% 的输出，提高编码速度。

Abstract

sequence-to-sequence models usually transfer all encoder outputs to the decoder for generation. In this work, by contrast, we hypothesize that these encoder outputs can be compressed to shorten the sequence delivered for decoding. We take →

sequence-to-sequence models encoder outputs compression transformer sparsification l0drop

发现论文，激发创造

结构化丢弃降低 Transformer 深度

本文介绍了一种新的结构化 dropout 形式 ——LayerDrop，该形式可在训练过程中实现正则化效果，在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升，并提出使用该方法可以得到更高质量的类 BERT 模型。

Sep, 2019

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021

预训练 Transformer 模型删除层的影响

通过剪枝方法，本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献，并观察剪枝对下游 GLUE 任务的影响，结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40％而保持最多 98％的原始性能，并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。

Apr, 2020

Transformer 需要眼镜！语言任务中的信息过度压缩

研究信息在解码器单独的 Transformer 模型中的传播，发现了表示崩溃现象和对特定标记的敏感性丧失，并提供了简单的解决方案。

Jun, 2024

通过稀疏率减少实现的白盒变压器：压缩无外乎此

我们认为表示学习的自然目标是将数据的分布压缩和转换为支持在不相关子空间上的低维高斯混合模型。我们通过基于名为稀疏率减少的原则性度量评估这种表示的好坏，该度量同时最大化所学表示的内在信息增益和外在稀疏性。从这个角度来看，包括变压器在内的流行深度网络结构可以看作是实现此度量优化的迭代方案。特别地，我们从这个目标的部分交替优化中推导出一个变压器块：多头自注意算子通过在特征的编码率上实施近似梯度下降步骤来压缩表示，随后的多层感知机稀疏特征。这导致了一系列名为 CRATE 的白盒变压器式深度网络结构，其在数学上是完全可解释的。我们通过去噪和压缩之间的新连接表明，前述压缩编码的逆可以由同一类 CRATE 架构实现。因此，这些衍生的白盒架构对编码器和解码器都是通用的。实验证明，尽管简单，但这些网络确实学习到了大规模实际图像和文本数据集的压缩和稀疏表示，并实现了与高度工程化的基于变压器的模型（ViT，MAE，DINO，BERT 和 GPT2）非常接近的性能。我们相信所提出的计算框架在统一的数据压缩视角下展示了深度学习理论和实践之间的巨大潜力。代码可以在此链接获得: https:// 此 URL。

Nov, 2023

门控 Dropout: 用于稀疏激活 Transformer 的通信高效正则化

本研究提出了一种名为 Gating Dropout 的方法，它可以减少深度学习模型的跨机器通讯成本，并在多语言机器翻译任务中验证了其有效性。

May, 2022

序列标注的语言模型剪枝：高效的上下文表示

本研究提出了一种基于稀疏性诱导正则化的层选择方法，用于压缩大型预训练语言模型，以提高特定任务的计算效率，并在两个基准数据集上进行了实验验证其有效性。

Apr, 2018

大型模型是简明学习者：训练转换器中的激活稀疏性

通过实验证明机器学习模型的机制使得 transformer 架构的激活图稀疏化，进而提出一种可以显著降低计算量并提高效率的方式。

Oct, 2022

深度神经网络中稀疏性的状态

本文评估了三种在深度神经网络中引入稀疏性的技术，并对两个大规模的学习任务进行了严格评估，结果表明，简单的幅度剪枝方法可以获得相当或更好的性能，而不能从头开始训练稀疏结构，并强调了建立大规模基准测试的必要性。

Feb, 2019

通过稀疏率降低白盒 Transformer 模型复杂度

本研究旨在将表示学习的对象转化为一组符合不相关子空间中的低维高斯分布混合物，通过稀疏率降低统一目标函数的质量用以衡量终极表示。同时，我们揭露了标准变压器块可以从这个目标的互补部分的交替优化中推导出来，并通过各种真实世界视觉数据集的实验表明，这些网络确实可以学习到设计目标的优化使图片高度压缩表示和稀疏，能够和如 ViT 一般经过深入的工程设计后的变压器网络取得相当的表现。

Jun, 2023