大型语言模型如何在上下文中学习？在上下文头部中的查询和关键矩阵是度量学习的两个关键因素

Feb, 2024

大型语言模型如何在上下文中学习？在上下文头部中的查询和关键矩阵是度量学习的两个关键因素

How do Large Language Models Learn In-Context? Query and Key Matrices of In-Context Heads are Two Towers for Metric Learning

PDF

Zeping Yu, Sophia Ananiadou

TL;DR我们通过定位和投射方法探索了上下文学习的机制，并提出了一种假设。在浅层中，合并演示的特征到对应的标签中，将输入文本的特征聚合到最后一个标记中。在深层中，上下文头起到了重要作用。在每个上下文头中，值输出矩阵提取标签的特征。查询和键矩阵计算输入文本与每个演示之间的注意权重。注意权重越大，越多的标签信息传递到最后一个标记以预测下一个单词。查询和键矩阵可以被视为学习输入文本与每个演示之间相似度的两个塔。基于这个假设，我们解释了不平衡的标签和演示顺序对预测的影响。我们在 GPT2 large，Llama 7B，13B 和 30B 上进行了实验。结果支持我们的分析。总体而言，我们的研究为理解上下文学习的机制提供了一种新的方法和合理的假设。我们的代码将在 GitHub 上发布。

Abstract

We explore the mechanism of in-context learning and propose a hypothesis using locate-and-project method. In shallow layers, the features of demonstrations are merged into their corresponding labels, and the feat

in-context learning locate-and-project method attention weights imbalanced labels demonstration order

发现论文，激发创造

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

识别语义引导头以理解上下文学习

通过对注意力头的运行进行详细分析，我们发现特定的注意力头在上下文学习的能力中具有重要的语义联系，从而推进了我们对 transformers 中注意力头运行的复杂操作和大语言模型上下文学习的新洞察。

Feb, 2024

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024

上下文学习与权重移动对 softmax 回归的紧密性

本文针对 Transformer 注意机制进行研究，基于 softmax 回归建模，研究了单个自注意力层诱导数据转换的上限，并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务，发现梯度下降和 Transformers 所学的模型具有很大的相似性。

Apr, 2023

大型语言模型中的上下文学习：基于神经科学的表示分析

大型语言模型通过背景学习在任务导向的例子中取得了显著的性能提升。本文研究了背景学习对语言模型嵌入和注意力表示的影响，以及这些变化如何对行为改进起到中介作用。通过神经科学启发的技术，我们发现在背景学习后，嵌入和注意力表示的变化与行为性能的改善之间存在有意义的相关性，这为对 LLM 行为的潜在表示进行细致理解提供了有价值的工具和见解。

Sep, 2023

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023

大型语言模型中的上下文翻译发生在哪里

通过层次上的上下文遮蔽实验，我们证明了大型语言模型中存在一个任务识别点，该点将任务编码到输入表示中，不再需要注意上下文，同时还观察到在层次遮蔽时的低性能与任务识别层之间的对应关系，利用这种冗余性可在提示 5 个示例时节省 45% 的计算量，任务识别在第 14/32 层达到，并且层次微调实验表明对于 MT 微调来说，最有效的层次是关键的任务识别层。

Mar, 2024

基于核回归的大语言模型上下文学习解析

通过研究大型语言模型，本文提出 Large language models 可以在面对语境示例时模拟核回归算法，并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归，并通过实证研究发现，LLMs 中的注意力和隐藏特征与核回归的行为相匹配，这些为 ICL 领域中观察到的多种现象提供了见解。

May, 2023

重新思考演示的作用：何为情境学习的关键？

本研究分析显示：大型语言模型不需要准确的演示，而是通过演示提供的标签空间、输入文本的分布和序列的整体格式等方面驱动任务表现的提高。因此，揭示了语境学习的原理和作用方式，同时提出了新的问题，即能否仅仅通过推理来学习大型语言模型的更多内容。

Feb, 2022

标签词是锚点：信息流角度理解上下文学习

本文通过信息流视角调查了示例中核心单词在对应学习任务中扮演的角色，并提出了一种锚点加权方法来提高学习效果，一种演示压缩技术来加速推断，并提出了一种分析框架来诊断 ICL 中的错误，并为未来的研究奠定了基础。

May, 2023