Apr, 2023

DropDim:Transformer 网络的一种正则化方法

TL;DR介绍了 DropDim,一种用于规范 Transformer 中关键组件 —— 自我注意力机制的结构化丢弃方法。与通用的随机丢弃方法不同,DropDim 会丢弃嵌入维度的一部分,从而避免了嵌入维度间的过多协同适应。实验证明,DropDim 能够有效地提高模型性能,在防止过拟合和与其他规范方法互补方面表现出色。