Dec, 2023

迷宫解决变形器中的结构化世界表示

TL;DR该研究通过解迷宫的方式,探究了小型 Transformer 模型的内部行为和结构化内部表示,其中发现了仅通过一个标记的残差流可以线性解码恢复整个迷宫的证据,以及每个标记的学习嵌入具有空间结构,并且通过识别称为 “邻接头” 的注意力头揭示了追踪路径的线路。