Mar, 2024

从损失的角度理解语言模型的新能力

TL;DR通过预训练损失来重新定义新能力,发现较低预训练损失的模型呈现出的性能趋势不可被简单地推断,表现出较高的新能力。