May, 2024

朝着基于原则的稀疏自编码器的解释性和控制性评估

TL;DR我们提出了一个评估特征字典的框架来解决解释性中地实际问题缺乏基本事实的问题,并应用该框架到间接对象识别任务中使用 GPT-2 Small,发现虽然稀疏自编码器可以捕捉到可解释的特征,但是它们对于控制模型的成功程度不如受监督的特征,并观察到在自编码器训练中存在的两个定性现象:特征遮挡和特征过度拆分。希望我们的框架能对稀疏字典学习方法的客观评估提供有用的步骤。