关于在序列到序列模型中稀疏编码器输出的研究
本文介绍了一种新的结构化 dropout 形式 ——LayerDrop,该形式可在训练过程中实现正则化效果,在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升,并提出使用该方法可以得到更高质量的类 BERT 模型。
Sep, 2019
通过剪枝方法,本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献,并观察剪枝对下游 GLUE 任务的影响,结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40%而保持最多 98%的原始性能,并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。
Apr, 2020
研究信息在解码器单独的 Transformer 模型中的传播,发现了表示崩溃现象和对特定标记的敏感性丧失,并提供了简单的解决方案。
Jun, 2024
我们认为表示学习的自然目标是将数据的分布压缩和转换为支持在不相关子空间上的低维高斯混合模型。我们通过基于名为稀疏率减少的原则性度量评估这种表示的好坏,该度量同时最大化所学表示的内在信息增益和外在稀疏性。从这个角度来看,包括变压器在内的流行深度网络结构可以看作是实现此度量优化的迭代方案。特别地,我们从这个目标的部分交替优化中推导出一个变压器块:多头自注意算子通过在特征的编码率上实施近似梯度下降步骤来压缩表示,随后的多层感知机稀疏特征。这导致了一系列名为 CRATE 的白盒变压器式深度网络结构,其在数学上是完全可解释的。我们通过去噪和压缩之间的新连接表明,前述压缩编码的逆可以由同一类 CRATE 架构实现。因此,这些衍生的白盒架构对编码器和解码器都是通用的。实验证明,尽管简单,但这些网络确实学习到了大规模实际图像和文本数据集的压缩和稀疏表示,并实现了与高度工程化的基于变压器的模型(ViT,MAE,DINO,BERT 和 GPT2)非常接近的性能。我们相信所提出的计算框架在统一的数据压缩视角下展示了深度学习理论和实践之间的巨大潜力。代码可以在此链接获得: https:// 此 URL。
Nov, 2023
本研究提出了一种名为 Gating Dropout 的方法,它可以减少深度学习模型的跨机器通讯成本,并在多语言机器翻译任务中验证了其有效性。
May, 2022
本研究提出了一种基于稀疏性诱导正则化的层选择方法,用于压缩大型预训练语言模型,以提高特定任务的计算效率,并在两个基准数据集上进行了实验验证其有效性。
Apr, 2018
本文评估了三种在深度神经网络中引入稀疏性的技术,并对两个大规模的学习任务进行了严格评估,结果表明,简单的幅度剪枝方法可以获得相当或更好的性能,而不能从头开始训练稀疏结构,并强调了建立大规模基准测试的必要性。
Feb, 2019
本研究旨在将表示学习的对象转化为一组符合不相关子空间中的低维高斯分布混合物,通过稀疏率降低统一目标函数的质量用以衡量终极表示。同时,我们揭露了标准变压器块可以从这个目标的互补部分的交替优化中推导出来,并通过各种真实世界视觉数据集的实验表明,这些网络确实可以学习到设计目标的优化使图片高度压缩表示和稀疏,能够和如 ViT 一般经过深入的工程设计后的变压器网络取得相当的表现。
Jun, 2023