Oct, 2023

代码库特征:神经网络的稀疏和离散可解释性

TL;DR神经网络的密集持续隐藏状态的挑战在于其理解,我们通过将连续特征量化为所谓的代码书特征来探索是否能训练神经网络具有稀疏、离散和更可解释的隐藏状态。我们的方法在大多数情况下仍可保持较高性能,并且提供了一种直观的方法来控制神经网络行为,即通过激活特定代码来引发期望的行为。代码书特征似乎对于神经网络的分析和控制以及可解释性非常有前景。