Jun, 2023

揭开黑匣子:分析预训练语言模型中的注意力权重和隐藏状态在非语言任务中的应用

TL;DR本文使用约束算术问题,分析了预训练语言模型中注意力权重分数和隐藏状态。我们发现模型可以以适度结构化的方式解决分层问题,类似于人类解决问题的策略,并推断出模型可以推广到长度超过训练集的序列。注意力分析发现,相对于模型的最终层,第10层是解决模型最优的层。同时,我们发现注意力分析存在局限性,特别是无法捕捉二维模式。