BriefGPT.xyz
Ask
alpha
关键词
layer-wise regularized dropout (lr-drop)
搜索结果 - 1
神经语言模型的逐层正则化丢弃
我们提出了一种特别为基于 Transformer 的语言模型设计的新型 Layer-wise Regularized Dropout (LR-Drop) 方法,通过一些研究使用一致性训练在输出层对 dropout 进行规范化,每个 Tran
→
PDF
4 months ago
Prev
Next