May, 2023

扫描与截屏:理解单层 Transformer 的训练动态和令牌组成

TL;DR本文对一层 Transformer 进行了标记和区分性扫描,流程逐渐集中于某些关键词,然后通过控制两层之间的学习速率,达到了几乎固定的标记组合,验证了该算法的动态性。