Oct, 2023

高效预训练的 Fast-ELECTRA

TL;DR通过利用现有的语言模型作为辅助模型,我们的方法 Fast-ELECTRA 解决了 ELECTRA 在训练成本上的限制,并通过温度调节和降序调度来平滑主模型的输出分布,从而提高了预训练的稳定性和性能。