为什么更大的语言模型在上下文中学习方式不同?
通过研究在背景语境中的大规模神经语言模型对正则语言的学习,我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势,并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。
Jan, 2024
大型语言模型通过背景学习在任务导向的例子中取得了显著的性能提升。本文研究了背景学习对语言模型嵌入和注意力表示的影响,以及这些变化如何对行为改进起到中介作用。通过神经科学启发的技术,我们发现在背景学习后,嵌入和注意力表示的变化与行为性能的改善之间存在有意义的相关性,这为对 LLM 行为的潜在表示进行细致理解提供了有价值的工具和见解。
Sep, 2023
通过研究大型语言模型,本文提出 Large language models 可以在面对语境示例时模拟核回归算法,并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归,并通过实证研究发现,LLMs 中的注意力和隐藏特征与核回归的行为相匹配,这些为 ICL 领域中观察到的多种现象提供了见解。
May, 2023
该研究论文探讨了大型语言模型 (LLMs) 是否能够根据不同任务示例的上下文信号来解决新任务,并设计了一个跨任务提示设置,并表明 LLMs 在无需上下文提示的情况下能够获得显著的性能提升,同时展示了模型激活相似性与跨任务示例效果之间的强相关性。
May, 2024
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习,该方法利用 Transformer 注意力和梯度下降优化之间的双重形式,将上下文学习过程分为 'Thinking' 和推理阶段,通过递归前向优化演示来增强 LLLs 的推理能力,并且将得到的元梯度通过注意力应用于最终的输出预测中,从而有效地、高效地适应下游任务。
May, 2023
探讨了大型语言模型在上下文学习中的能力,并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为,表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。
Jan, 2024
使用全面实验证明,In-context learning 通常具有非常简单的结构,即对应于仅有查询 x 和从训练集计算得到的单个 “任务向量” 的 Transformer LLM,可将训练集 S 压缩为单个任务向量 θ(S),并使用该任务向量来调节 Transformer 以产生输出。
Oct, 2023
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
本文通过一系列来自常见文本分类任务的实验,实证地探索了解释大型语言模型(LLMs)在上下文中学习的三种假设,证伪了前两种假设,并提供了支持最后一种假设的证据。结果表明,LLMs 能够通过组合在预训练期间学习的任务来上下文中学习一个新任务。
Jun, 2024