Oct, 2023

注意力透镜:一种解释机制注意头信息检索机制的工具

TL;DR利用学习的注意力头特定转换,Attention Lens 将注意力头的输出转化为词汇标记,揭示了注意力头在语言模型中的高度特殊化角色。