BriefGPT.xyz
Ask
alpha
关键词
masked tokens
搜索结果 - 1
Transformers 的高效预训练目标
本论文研究了 Transformer 模型的有效预训练目标,并探究了 ELECTRA 模型的若干新特性。结果表明,去除 mask token 以及全局损失计算有助于提升模型性能,同时参考 ELECTRA 模型的判别式方法可以更高效地训练 B
→
PDF
3 years ago
Prev
Next