Nov, 2023

自然语言模型编辑增强的灵活模型可解释性

TL;DR在大型语言模型时代,模型可解释性和模型编辑是关键目标。有趣的是,这两个目标之间存在一种联系:如果一种方法能够针对人类感兴趣的概念有系统地编辑模型行为,这种编辑方法可以通过指向相关表示并系统地操控它们来帮助使内部表示更具可解释性。