识别语义引导头以理解上下文学习
本文从六个方面提出了假设,指出 “感应头” 可能构成了大型变换器模型中大部分 “上下文学习” 的机制。同时,通过强因果证据和相关性证据,证明了这种感应头可能是任何大小的变压器模型中一般情况下上下文学习的来源。
Sep, 2022
通过研究注意力头与人类情节记忆之间的关系,我们发现 Transformers 模型和自注意机制的缺失,并发现在大型语言模型中诱导头的行为、功能和机制与人类情节记忆的上下文维护和检索(CMR)模型有相似之处。我们的研究揭示了 LLMs 的计算机制与人类记忆之间的并行关系,为这两个研究领域提供了有价值的洞见。
May, 2024
通过研究注意力头与特定 “下一个标记” 神经元在预测特定标记的多层感知机中的相互作用,我们可以揭示激活特定下一个标记神经元的注意机制。具体而言,我们关注在较早层次中不同提示下始终激活相同下一个标记神经元的注意力头。我们的方法结合了神经解释和探测孤立组件,以阐明注意力如何在语境依赖的专门处理中发挥作用。
Feb, 2024
通过系统调查,发现特定类型的注意力头在检索信息和长范文本中具有重要作用,称之为检索头,它们在转换器模型中普遍存在,稀疏且动态激活,对于链接思考推理和避免虚幻现象有深远影响。
Apr, 2024
本文研究了大型语言模型 LLMs 的推理能力,通过对语义从推理过程中的剥离进行实验,发现语义在 LLMs 的推理中起着至关重要的作用,但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角,并呼吁深入研究 LLMs 的推理机制。
May, 2023
我们分析了大型语言模型(LLMs)如何表示上下文之外的单词,研究它们依赖所给上下文来捕捉其语义的情况。我们的文本扰动指导了似然性,揭示了变形器模型中令牌似然性和注意力值之间的相关性。广泛的实验表明,意外的令牌会导致模型不太关注来自自身的信息以计算它们的表示,特别是在较高的层次上。这些发现对于评估 LLMs 在真实世界场景中的鲁棒性具有重要的影响。
Mar, 2023
Transformer 模型表现出上下文学习:基于输入序列中的示例,准确预测对新查询的响应。研究讨论了训练数据分布和架构方面哪些因素支持上下文学习和传统的查询 - 输出关系学习。研究还提出了在简化数据集上训练的最小关注网络模型,阐明了上下文学习受到诱导头突然出现的驱动。该研究建议,基于注意力的网络的明显转折是由于实现上下文学习所必需的特定多层操作链引起的。
Dec, 2023
基于人类行为学视角,我们探究了大型语言模型(LLMs)的预测过程和内部机制,通过将 LLMs 的值与眼动测量结果相关联,发现 LLMs 表现出与基于 RNN 的语言模型不同的预测模式。此外,随着前馈网络(FFN layers)的升级,记忆和语言知识编码的能力也逐渐提升直至达到巅峰,并转向注重理解能力。自注意力机制的功能分布在多个头部。最后,我们审查了门控机制,发现它们控制信息的流动,有些门控机制促进信息的传递,而其他门控机制则消除信息。
Oct, 2023
大型语言模型具有模仿输入模式的能力。本文引入了一个简单的马尔可夫链序列建模任务,以研究这种上下文学习能力的形成。我们通过训练变压器模型来计算给定上下文的准确下一个标记的概率。通过实证和理论研究,本文揭示了成功学习是由变压器层之间的交互作用所造成的,并发现简单的单个标记统计解可能会延迟最终的双标记解的形成。我们还考虑了马尔可夫链的先验分布以及将上下文学习拓展到大于 2 的 n 元组。
Feb, 2024
我们通过定位和投射方法探索了上下文学习的机制,并提出了一种假设。在浅层中,合并演示的特征到对应的标签中,将输入文本的特征聚合到最后一个标记中。在深层中,上下文头起到了重要作用。在每个上下文头中,值输出矩阵提取标签的特征。查询和键矩阵计算输入文本与每个演示之间的注意权重。注意权重越大,越多的标签信息传递到最后一个标记以预测下一个单词。查询和键矩阵可以被视为学习输入文本与每个演示之间相似度的两个塔。基于这个假设,我们解释了不平衡的标签和演示顺序对预测的影响。我们在 GPT2 large,Llama 7B,13B 和 30B 上进行了实验。结果支持我们的分析。总体而言,我们的研究为理解上下文学习的机制提供了一种新的方法和合理的假设。我们的代码将在 GitHub 上发布。
Feb, 2024