May, 2023

扫描与截屏:理解单层Transformer的训练动态和令牌组成

TL;DR本文对一层Transformer进行了标记和区分性扫描,流程逐渐集中于某些关键词,然后通过控制两层之间的学习速率,达到了几乎固定的标记组合,验证了该算法的动态性。