Jul, 2019

DropAttention: 一种全连接自注意力网络的正则化方法

TL;DR探索在 Transformers 中规范化注意权重以防止过度拟合,并表明 DropAttention 能够提高性能并减少过度拟合。