Feb, 2024

上下文学习的发展景观

TL;DR我们展示出,在 transformers 上进行语言建模或线性回归任务训练时,出现了离散的发展阶段中的上下文学习,并引入了两种方法来检测分隔这些阶段的里程碑,通过探测参数空间和函数空间中种群损失的几何结构。我们使用一系列行为和结构度量来研究这些新方法揭示的阶段,以确定它们的有效性。