ICMLMay, 2022

门控 Dropout: 用于稀疏激活 Transformer 的通信高效正则化

TL;DR本研究提出了一种名为 Gating Dropout 的方法,它可以减少深度学习模型的跨机器通讯成本,并在多语言机器翻译任务中验证了其有效性。