预训练以学习上下文
MetaICL 是一种新的元训练框架,用于少样本学习,通过在大量训练任务上进行元训练,调整预训练模型进行上下文学习,从而在测试时仅通过少量训练例子进行条件化得到更好的学习效果,该框架在包括分类、问答、自然语言推理、释义检测等在内的 142 个 NLP 数据集上进行了实验,比没有元训练的上下文学习、多任务学习加零 - shot 转移等基线表现更好,在元训练任务与目标任务之间存在域变换时性能提升尤其显著。同时,MetaICL 方法和通常情况下全微调的模型表现相当甚至更优,甚至比参数近 8 倍的更大的模型表现更好,最后也证明了 MetaICL 可以和人工编写的指令相辅相成,两种方法相结合可以得到最佳的性能
Oct, 2021
通过分析预训练数据,研究了上下文学习在自然语言处理任务中的表现,并发现罕见、长尾词汇的含量较高的、具有挑战性的训练数据可以显著提高语言模型的上下文学习能力,将有助于指导未来预训练数据的构建。
Jun, 2023
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
通过引入概率模型,我们对上下文学习的双重工作模式进行了解释,并分析了线性函数的上下文学习行为,展示了一种可能的解释,即通过更多的上下文示例,任务学习将产生作用并减少风险。
Feb, 2024
通过增加上下文和记忆状态的规模,以提高在上下文中学习和推广能力,与普通的上下文学习相比,泛化性上下文学习(GPICL)在广泛的任务范围内扩展学习视野,并从较低的零样本基线开始。
May, 2024
在本研究中,我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性,并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现,相较于模型大小,模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时,我们还发现,在代码上进行预训练的模型更好地推广,并在更大程度上受到思维链提示的益处。
Nov, 2023
本研究提出了一个基于 PAC 理论的框架来探究上下文学习及其可学性,发现在语言模型的参数保持不变的情况下,通过将下游任务的训练示例包含在其输入中,可以调整模型以执行各种下游自然语言处理任务,预训练分布是潜在任务的混合时,这些任务可以通过上下文学习有效地学习,这种学习更多地是关于识别任务而不是学习任务,并希望这一研究框架为深入理解上下文学习的新学习范式打下基础。
Mar, 2023
文中介绍了一种名为 CoAT 的优化方法,利用模拟训练数据来帮助语言模型更好的利用其背景知识。使用 CoAT 训练的 In-context learners 性能表现良好,达到了在多任务训练中更大规模模型的性能水平。
May, 2023
在这项研究中,我们介绍了一种名为 Implicit In-context Learning (I2CL) 的创新范式,通过将演示样例吸收到激活空间中,解决了传统 In-context Learning (ICL) 所面临的挑战。经过实证评估,I2CL 在三种模型架构的九个真实世界任务上实现了接近零成本的少样本性能,并且对演示样例的变化表现出鲁棒性。此外,I2CL 促进了一种名为 “task-ids” 的新颖表示,增强了任务相似性检测能力并实现了有效的迁移学习。
May, 2024