Jun, 2024

学习理解:模块化算术任务中上下文学习和技能组合的出现

TL;DR通过研究模块化算术任务中上下文学习和技能组合的出现,我们证明了 GPT-style transformer 模型从分布内到分布外泛化的转变,也发现了最小的能够进行分布外泛化的模型需要两个 transformer 块。