Nov, 2023

在大型语言模型中识别线性关系概念

TL;DR用于在 Transformer 语言模型的给定隐藏层中找到对应于可解释的人类概念的概念方向的线性关系概念技术(LRC)通过首先将主体和客体之间的关系建模为线性关系嵌入(LRE),并在倒转 LRE 同时使用较早的客体层,从而找到既可以作为分类器良好工作又能因果地影响模型输出的概念方向。