Nov, 2023

预训练数据混合提高 Transformer 模型选择能力

TL;DR在这项研究中,我们研究了 Transformer 模型,特别是大型语言模型(LLMs),它们具有在上下文中学习的显著能力,即在未见过的输入 - 输出示例的提示下执行新任务,而无需任何显式的模型训练。我们的实证结果显示变压器在选择无监督模型和在上下文中学习不同任务家族方面表现出近乎最优的能力,但当面对超出预训练数据领域的任务或功能时,我们展示了变压器的各种失败模式和其泛化能力的退化,即使是简单的外推任务也是如此。总的来说,我们的结果强调了高容量序列模型令人印象深刻的上下文学习能力可能与其预训练数据组合的覆盖范围更紧密相关,而不是创造基本泛化能力的归纳偏差。