BriefGPT.xyz
Ask
alpha
关键词
dropdim
搜索结果 - 1
DropDim:Transformer 网络的一种正则化方法
介绍了 DropDim,一种用于规范 Transformer 中关键组件 —— 自我注意力机制的结构化丢弃方法。与通用的随机丢弃方法不同,DropDim 会丢弃嵌入维度的一部分,从而避免了嵌入维度间的过多协同适应。实验证明,DropDim
→
PDF
a year ago
Prev
Next