Feb, 2025
概念层:通过大语言模型增强可解释性和可干预性
Concept Layers: Enhancing Interpretability and Intervenability via LLM
Conceptualization
TL;DR本研究解决了大语言模型(LLMs)可解释性和可干预性不足的问题,提出了一种将概念层(CLs)集成到现有模型架构的方法。通过将模型内部向量表示投影到可解释的概念向量空间并进行重构,我们的方法无需人工选择概念集,并能在多任务中保持原模型性能,同时实现有效的干预。研究结果显示,该方法在动态调整模型行为方面具有良好潜力。