Feb, 2024

转变是什么?将表征介入转化为自然语言

TL;DR通过操作语言模型的表示空间,我们可以将表示空间反事实转化为自然语言的反事实,从而分析与特定表示空间干预对应的语言变化,并解释用于编码特定概念的特征。此外,生成的反事实可用于减轻分类中的偏见。