Feb, 2024

变压器语言模型在算法学习上的限制

TL;DR我们分析了 Transformer 语言模型在学习离散算法方面的能力,通过引入两个需要组合多个离散子任务的新任务,我们在从头开始训练 LLaMA 模型以及 GPT-4 和 Gemini 上引导训练时,度量了学习的基本组合。我们观察到,最先进的 Transformer 语言模型的组合能力非常有限,而且在样本上的规模效果比为新的算法组合重新学习所有子任务要差。我们还提出了一个复杂性理论的定理,证明了在记忆前馈模型上的梯度下降可能在数据效率上指数级低效。