一个单层随机加权 Transformer 中隐藏了什么？

EMNLPSep, 2021

一个单层随机加权 Transformer 中隐藏了什么？

What's Hidden in a One-layer Randomly Weighted Transformer?

Sheng Shen, Zhewei Yao, Douwe Kiela, Kurt Keutzer, Michael W. Mahoney

TL;DR通过对单层随机权重神经网络应用不同的二值掩模，我们发现这些子网络在机器翻译任务上可以实现惊人的性能，同时又不需要修改初始权重；我们还证明了更大更深的 Transformer 和不同初始化方法的有效性，这些发现可以匹敌训练过的 Transformer，在 IWSLT14／WMT14 上分别达到了 29.45／17.29 BLEU（匹配 98％／92％，即 34.14／25.24 BLEU）的性能。

Abstract

We demonstrate that, hidden within one-layer randomly weighted neural networks, there exist subnetworks that can achieve impressive performance, without ever modifying the weight initializations, on machine translation<

randomly weighted neural networks subnetworks machine translation transformer initialization methods

发现论文，激发创造

随机加权神经网络中隐藏了什么？

本研究表明，随机加权神经网络中存在着无需训练权重值就能达到惊人性能的子网络，并提供了一种有效的算法来发现这些未经训练的子网络。随着随机加权神经网络变得更加宽和深，未经训练的子网络将逐渐接近具有已知权重的神经网络的准确性水平。

Nov, 2019

机器翻译加权变形器网络

本篇论文提出基于注意力机制的神经机器翻译新架构，采用自注意力和前馈神经网络层来避免递归和卷积，但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型，通过修改注意力层架构，更快地提高 BLEU 得分表现，同时在英译德和英译法机器翻译任务中表现最优。

Nov, 2017

从深度 Transformer 学习轻量级翻译模型

本文提出了一种新颖的基于群排列的知识蒸馏方法，将深度 Transformer 模型压缩为浅层模型，并通过随机遗漏 sub-layers 的 Skipping Sub-Layer 方法来进一步提高模型性能，在保证几乎不丢失 BLEU 的情况下，将学习时间和计算量降低了 8 倍，证明了该方法在多个基准测试中的有效性。

Dec, 2020

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

深度变换器用于神经机器翻译

本文探讨了非常深的 Transformer 模型在神经机器翻译中的应用，使用一种简单但有效的初始化技术来稳定训练，我们证明了可行性，并且通过使用 60 个编码器层和 12 个解码器层，此类深度模型在 WMT14 英法和英德翻译基准上录得了比基准浅层模型高达 2.5 BLEU 的结果（其中包括通过回译得到的 46.4 BLEU 以及 30.1 BLEU），代码和训练模型将在公开网站上开放。

Aug, 2020

通过任务无关的掩码训练在 BERT 转移上学习赢得彩票的方法

本文通过对 BERT 子网络的研究发现直接优化子网络结构能更好地保留预训练性能，探究了幸运彩票假设、幅度剪枝和二值掩码训练等方法在 BERT 子网络中的应用，发现二值掩码训练方法在寻找改进 BERT 子网络性能方面更加有效。

Apr, 2022

共享注意力权重用于快速 Transformer

本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型，用于加速 Transformer 机器翻译系统，在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升（几乎不降低 BLEU）和与 Aan 模型的 1.8 倍加速（比没有使用注意力缓存的基线高出 16 倍）。

Jun, 2019

高效压缩子层的 Transformer 解码器

通过压缩 Transformer 模型的 decoder 层中 sub-layers 构建模块，提出了 Compressed Attention Network，实现了更高的并行性，性能与强基线相当，速度加快 1.42 倍。

Jan, 2021

通过微调子词系统实现合理大小的基于字符级别的 Transformer NMT

实现字符级别的 Transformer 架构通常需要非常深的架构，难以训练。本文提出一种通过在模型中将分词与字元结合进行初步训练，然后在字符级别上调整，从而实现不需要分词的神经机器翻译模型的方法，并且展示了这种方法更好地捕捉了语言形态现象和更加健壮，训练的代价相对较小。

Apr, 2020

随机初始化子网络与迭代权重回收

该研究介绍了一种名为 Iterative Weight Recycling 的算法，该算法可在初始化的神经网络中识别重要权重的子集以供重复使用，可以提高模型稀疏度，此外还支持了多奖励彩票票据假设的互补结果，即高精度，随机初始化的子网络产生多样的掩码，展现了高度的变异性。

Mar, 2023