Apr, 2021

Transformers 的高效预训练目标

TL;DR本论文研究了 Transformer 模型的有效预训练目标,并探究了 ELECTRA 模型的若干新特性。结果表明,去除 mask token 以及全局损失计算有助于提升模型性能,同时参考 ELECTRA 模型的判别式方法可以更高效地训练 BERT-like 模型,并且这些方法受到超参数寻优的进一步改善。