Apr, 2023

用概念向量解开神经元表示

TL;DR研究为了实现模型机制性可解释性,提出了一种方法将多义神经元解离成概念向量来达到单一概念的表征,该方法可以根据用户所需的概念级别寻找精细的概念,分析显示多义神经元可以分解成神经元的线性组合的方向,评估表明找到的概念向量编码了连贯的人类可理解的特征。