Apr, 2022

零-shot泛化哪种语言模型架构和预训练目标最佳?

TL;DR通过大规模模型比较和实验验证,本文发现预训练的 Transformer 模型在自然语言处理任务的零样本泛化能力中,部分结构和预训练目标优于其他模型,这为模型架构和目标选择提供了指导。同时,本文研究了预训练模型跨结构和目标的迁移,并提供源代码和检查点。