EMNLPApr, 2020

Scheduled DropHead: Transformer 模型的正则化方法

TL;DR本研究介绍了 DropHead,这是一种专门为规范化变压器的关键组件 —— 多头注意机制而设计的结构性 dropout 方法。DropHead 在训练期间将整个注意力头头部丢弃,以使得多头注意力模型更为高效地利用注意力头,同时减少了过拟合风险,实验证明了其有效性。