Jul, 2024

分析干向量的泛化和可靠性 - ICML 2024

TL;DR通过干预中间模型激活来有效调整语言模型行为的截向矢量(Steering Vectors)是一种新的方法,但其可靠性和泛化属性尚不明确。我们对这些属性进行了严格的研究,发现截向矢量在分布内外都存在重大限制,并且在某些概念上对输入的每个有效性具有显著的变异性,这给广泛使用截向矢量带来了挑战。总体而言,我们的发现表明,尽管截向矢量在适当的环境下可以发挥作用,但在规模应用中应用截向矢量来指导模型行为仍存在许多技术难题。