Jun, 2022

分析 Transformer 语言模型中的编码概念

TL;DR本文提出了一个新颖的框架 ConceptX,利用聚类发现预训练语言模型中编码的潜在概念,并通过与大量人类定义的概念进行对齐进行解释。它在七个变压器语言模型上的分析揭示了有趣的见解:i)学习表示中的潜在空间以不同的程度与不同的语言概念重叠,ii)模型中的较低层由词汇概念(例如,词缀)主导,而核心语言概念(例如,形态或句法关系)在中高层中更好地表示,iii)一些编码的概念具有多面性,无法用现有的人类定义概念充分说明。