BriefGPT.xyz
Ask
alpha
关键词
masking rate scheduling
搜索结果 - 1
用于 MLM 预训练的动态掩码比率调度
通过动态调度遮蔽率,从 30%线性减少到 15%,与原始 BERT 模型的 15%固定遮蔽率相比,我们发现可以提高 BERT-base 的平均 GLUE 准确度 0.46%,从而改善遮蔽语言模型的质量并在预训练中实现高达 1.89 倍的加速
→
PDF
a year ago
Prev
Next