Sep, 2022

上下文学习和归纳头

TL;DR本文从六个方面提出了假设,指出 “感应头” 可能构成了大型变换器模型中大部分 “上下文学习” 的机制。同时,通过强因果证据和相关性证据,证明了这种感应头可能是任何大小的变压器模型中一般情况下上下文学习的来源。