Sep, 2019

结构化丢弃降低 Transformer 深度

TL;DR本文介绍了一种新的结构化 dropout 形式 ——LayerDrop,该形式可在训练过程中实现正则化效果,在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升,并提出使用该方法可以得到更高质量的类 BERT 模型。