Jul, 2023

因果探索的几何概念

TL;DR大语言模型基于文本的实值表示进行预测,包括从训练数据中学到的语言特性和偏见(如性别)。本研究通过将表示空间的子空间进行正交投影进行了对这些概念的信息分析,并提出了概念受控生成的方法。实证结果表明,在至少一个模型中,R-LACE返回了包含约一半总概念信息的一维子空间,该子空间可用于精确操纵生成词的概念值。