Jun, 2021

R-Drop: 神经网络的正则化丢弃

TL;DR本文中介绍了一种简单的正则化方法 R-Drop,该方法强制不同子模型生成的输出分布相互一致,从而提高了深度学习模型的效果。通过在 5 个深度学习任务(包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类)上的实验证明,R-Drop 是普遍有效的,并在 Vanilla Transformer 模型上实现了最先进的性能。