Feb, 2024

大规模语言模型中的大规模激活

TL;DR研究发现大型语言模型中存在大量激活,它们相对于其他激活值明显较大(如大约 10 万倍);这些巨大激活是普遍存在的且对 LLMs 起着重要的偏置项作用,导致注意力概率集中在相应的单词上并进一步成为自我注意输出中的隐含偏置项;此外,还研究了在视觉转换器中产生的大激活。