上下文学习和归纳头
通过对注意力头的运行进行详细分析,我们发现特定的注意力头在上下文学习的能力中具有重要的语义联系,从而推进了我们对 transformers 中注意力头运行的复杂操作和大语言模型上下文学习的新洞察。
Feb, 2024
通过对合成数据进行训练,研究感应头的出现动力学,明确了其多样性和叠加性质,并鉴定了三个相互作用的亚电路,推动感应头形成,从而导致相变。
Apr, 2024
大型语言模型具有模仿输入模式的能力。本文引入了一个简单的马尔可夫链序列建模任务,以研究这种上下文学习能力的形成。我们通过训练变压器模型来计算给定上下文的准确下一个标记的概率。通过实证和理论研究,本文揭示了成功学习是由变压器层之间的交互作用所造成的,并发现简单的单个标记统计解可能会延迟最终的双标记解的形成。我们还考虑了马尔可夫链的先验分布以及将上下文学习拓展到大于 2 的 n 元组。
Feb, 2024
Transformer 模型表现出上下文学习:基于输入序列中的示例,准确预测对新查询的响应。研究讨论了训练数据分布和架构方面哪些因素支持上下文学习和传统的查询 - 输出关系学习。研究还提出了在简化数据集上训练的最小关注网络模型,阐明了上下文学习受到诱导头突然出现的驱动。该研究建议,基于注意力的网络的明显转折是由于实现上下文学习所必需的特定多层操作链引起的。
Dec, 2023
通过研究注意力头与人类情节记忆之间的关系,我们发现 Transformers 模型和自注意机制的缺失,并发现在大型语言模型中诱导头的行为、功能和机制与人类情节记忆的上下文维护和检索(CMR)模型有相似之处。我们的研究揭示了 LLMs 的计算机制与人类记忆之间的并行关系,为这两个研究领域提供了有价值的洞见。
May, 2024
通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展,并对平衡和不平衡特征数据进行了分析,证明了其收敛性和预测误差。
Oct, 2023
本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡,发现这些模型相对较快地学习了全局信息,但对于上下文信息中的二元组的识别则较慢,同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制,同时研究了数据分布属性的作用。
Jun, 2023
通过研究注意力头与特定 “下一个标记” 神经元在预测特定标记的多层感知机中的相互作用,我们可以揭示激活特定下一个标记神经元的注意机制。具体而言,我们关注在较早层次中不同提示下始终激活相同下一个标记神经元的注意力头。我们的方法结合了神经解释和探测孤立组件,以阐明注意力如何在语境依赖的专门处理中发挥作用。
Feb, 2024
本文通过多种线性和非线性函数类的实证观察,延伸了之前的研究,表明了 transformers 的理想学习者表现,并探究了其在 Bayesian 模型和多任务环境下的应用,还以傅里叶级数为例研究了其归纳偏差。
Jun, 2023
本文通过三类证据说明了基于 transformers 的 in-context learners 在其激活中编码了较小的模型,并更新这些隐式模型为更加精确的预测器;而且,这些学习器学习算法的特征与最佳实践算法相似,这意味着 in-context learners 可以发现标准的估计算法,如梯度下降,闭式 Ridge 回归和最小二乘回归,实验结果验证了这个假设。
Nov, 2022