Apr, 2022
零-shot泛化哪种语言模型架构和预训练目标最佳?
What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization?
TL;DR通过大规模模型比较和实验验证,本文发现预训练的 Transformer 模型在自然语言处理任务的零样本泛化能力中,部分结构和预训练目标优于其他模型,这为模型架构和目标选择提供了指导。同时,本文研究了预训练模型跨结构和目标的迁移,并提供源代码和检查点。