Feb, 2024

大型语言模型如何在上下文中学习?在上下文头部中的查询和关键矩阵是度量学习的两个关键因素

TL;DR我们通过定位和投射方法探索了上下文学习的机制,并提出了一种假设。在浅层中,合并演示的特征到对应的标签中,将输入文本的特征聚合到最后一个标记中。在深层中,上下文头起到了重要作用。在每个上下文头中,值输出矩阵提取标签的特征。查询和键矩阵计算输入文本与每个演示之间的注意权重。注意权重越大,越多的标签信息传递到最后一个标记以预测下一个单词。查询和键矩阵可以被视为学习输入文本与每个演示之间相似度的两个塔。基于这个假设,我们解释了不平衡的标签和演示顺序对预测的影响。我们在 GPT2 large,Llama 7B,13B 和 30B 上进行了实验。结果支持我们的分析。总体而言,我们的研究为理解上下文学习的机制提供了一种新的方法和合理的假设。我们的代码将在 GitHub 上发布。