AAAIJan, 2024

生成语言模型中神经元信息性文本描述的探索

TL;DR使用 BERT 为例,本文提出了一种新颖且可扩展的框架,将文本描述与神经元联系起来,并通过生成式语言模型发现数据特定的可解释描述符,用于解释编码这些描述符的神经元。实验证明,该方法在识别神经元方面达到了 75% 的 2 阶精度和 50% 的 2 阶回想率。