COLINGApr, 2024

在 LLMs 中检测概念抽象

TL;DR我们提出了一种新颖的方法来检测大型语言模型中的名词抽象。从心理学动机的名词对集合开始,我们使用表示上位词关系的表面模式,并分析 BERT 生成的注意力矩阵。通过比较结果和两组反事实情况,我们展示了可以检测到抽象机制中的上位词关系,这不能仅仅与名词对的分布相似性有关。我们的发现是朝着解释大型语言模型中概念抽象的方向迈出的第一步。