May, 2023

从神经元到图形:大规模解释语言模型神经元

TL;DR该论文介绍了一种自动化的方法来解释大型语言模型中的神经元行为,并将其转化为可解释的图形表示,从而提高大型语言模型的可解释性和安全性。