BriefGPT.xyz
Ask
alpha
关键词
statistical induction heads
搜索结果 - 1
统计归纳头的演进:上下文学习的马尔科夫链
大型语言模型具有模仿输入模式的能力。本文引入了一个简单的马尔可夫链序列建模任务,以研究这种上下文学习能力的形成。我们通过训练变压器模型来计算给定上下文的准确下一个标记的概率。通过实证和理论研究,本文揭示了成功学习是由变压器层之间的交互作用所
→
PDF
5 months ago
Prev
Next