Feb, 2024

统计归纳头的演进:上下文学习的马尔科夫链

TL;DR大型语言模型具有模仿输入模式的能力。本文引入了一个简单的马尔可夫链序列建模任务,以研究这种上下文学习能力的形成。我们通过训练变压器模型来计算给定上下文的准确下一个标记的概率。通过实证和理论研究,本文揭示了成功学习是由变压器层之间的交互作用所造成的,并发现简单的单个标记统计解可能会延迟最终的双标记解的形成。我们还考虑了马尔可夫链的先验分布以及将上下文学习拓展到大于 2 的 n 元组。