Jun, 2024

大型语言模型中的关键相变

TL;DR使用 GPT-2,我们通过数值演示证明了低温和高温两种状态下大型语言模型产生的句子的差异不是平滑变化的,而是具有奇异、发散的统计特征,且关键行为随着过渡温度出现,这些关键行为在自然语言数据集中也有表现。我们还讨论了几个度量临界性质的统计量对于评估大型语言模型的性能应该是有用的。