May, 2023
扫描与截屏:理解单层 Transformer 的训练动态和令牌组成
Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer
Yuandong Tian, Yiping Wang, Beidi Chen, Simon Du
TL;DR本文对一层 Transformer 进行了标记和区分性扫描,流程逐渐集中于某些关键词,然后通过控制两层之间的学习速率,达到了几乎固定的标记组合,验证了该算法的动态性。