Oct, 2023

大型语言模型中的功能向量

TL;DR通过对多样的上下文学习任务的因果中介分析,我们发现一种简单的神经机制,在自回归 Transformer 语言模型中将输入输出函数表示为向量,这种向量被我们称为函数向量(Function Vector)。函数向量(FV)对上下文的变化具有鲁棒性,在与上下文不相似的输入(如零 - shot 和自然文本设置)上触发任务的执行。我们测试了函数向量在多种任务、模型和层次上的效果,并发现在中间层次的不同设置中具有强大的因果效应。我们研究了函数向量的内部结构,并发现虽然它们经常包含编码函数的输出空间的信息,但仅有这些信息并不足以重构一个函数向量。最后,我们测试了函数向量中语义向量的组合,并发现在一定程度上它们可以被相加以创建触发新复杂任务的向量。综上所述,我们的研究结果表明,语言模型中包含了内部的抽象的通用函数,可以在各种不同的上下文中被调用。