神经网络中的现场学习出现人类课程效果
大型语言模型通过背景学习在任务导向的例子中取得了显著的性能提升。本文研究了背景学习对语言模型嵌入和注意力表示的影响,以及这些变化如何对行为改进起到中介作用。通过神经科学启发的技术,我们发现在背景学习后,嵌入和注意力表示的变化与行为性能的改善之间存在有意义的相关性,这为对 LLM 行为的潜在表示进行细致理解提供了有价值的工具和见解。
Sep, 2023
通过研究在背景语境中的大规模神经语言模型对正则语言的学习,我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势,并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。
Jan, 2024
在本研究中,我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性,并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现,相较于模型大小,模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时,我们还发现,在代码上进行预训练的模型更好地推广,并在更大程度上受到思维链提示的益处。
Nov, 2023
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
探讨了大型语言模型在上下文学习中的能力,并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为,表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。
Jan, 2024
本文通过一系列来自常见文本分类任务的实验,实证地探索了解释大型语言模型(LLMs)在上下文中学习的三种假设,证伪了前两种假设,并提供了支持最后一种假设的证据。结果表明,LLMs 能够通过组合在预训练期间学习的任务来上下文中学习一个新任务。
Jun, 2024
Transformer 模型表现出上下文学习:基于输入序列中的示例,准确预测对新查询的响应。研究讨论了训练数据分布和架构方面哪些因素支持上下文学习和传统的查询 - 输出关系学习。研究还提出了在简化数据集上训练的最小关注网络模型,阐明了上下文学习受到诱导头突然出现的驱动。该研究建议,基于注意力的网络的明显转折是由于实现上下文学习所必需的特定多层操作链引起的。
Dec, 2023
在大语言模型时代,人机交互朝着自然语言发展,提供了前所未有的灵活性。然而,大语言模型在上下文学习领域内高效运行往往依赖于结构良好的提示。为了解决这一挑战,我们的研究提出了一个名为自动上下文学习的通用框架。在接收到用户的请求后,我们要求模型自主生成示例,包括标签、说明或推理路径。然后,模型利用这个自产的上下文来解决给定的问题。我们的方法具有普适性,可在适用于普通上下文学习的任何环境中实施。我们展示了我们的方法在一系列任务中取得了强大的性能,并与现有方法相比表现出色。
Nov, 2023
演示排序是上下文学习中的重要策略,对大型语言模型的性能有显著影响。我们提出了少样本上下文课程学习(ICCL),一种简单但有效的演示排序方法,其在推理过程中逐渐增加提示演示的复杂性。通过设计三个实验来探讨 ICCL 的有效性、LLM 的 ICCL 能力形成机制以及排序主题的影响,实验结果表明,ICCL 在指导调整阶段对开源 LLM 有效。此外,与人类相比,LLM 对演示的难度层次辨别能力较弱。我们在此 https URL 上发布了我们的代码。
Feb, 2024