Oct, 2024

激活缩放用于引导和解释语言模型

TL;DR本研究解决了如何通过乘以相关激活向量的标量,干预语言模型的预测以从不正确的"法国"转变为正确的"意大利"的问题。提出的激活缩放方法在实现高效、可解释的干预时,能够有效翻转预测并保持其他词的稳定性,其最显著发现是该方法在合成任务上展现出与传统引导向量相媲美的效果,同时具备更好的最小性,使得模型组件可解释化。