探究上下文学习的预训练动态:任务识别与任务学习
本研究探讨了大型语言模型利用情境学习来解决只有少量演示的任务的机制,发现情境学习从两个方面发挥作用:任务识别和任务学习,具有不同的性质和特点。
May, 2023
通过引入概率模型,我们对上下文学习的双重工作模式进行了解释,并分析了线性函数的上下文学习行为,展示了一种可能的解释,即通过更多的上下文示例,任务学习将产生作用并减少风险。
Feb, 2024
通过分析预训练数据,研究了上下文学习在自然语言处理任务中的表现,并发现罕见、长尾词汇的含量较高的、具有挑战性的训练数据可以显著提高语言模型的上下文学习能力,将有助于指导未来预训练数据的构建。
Jun, 2023
通过在普通文本语料库中使用简单语言建模目标来预训练模型,PICL 能够增强语言模型的上下文学习能力,从而提高其在文本分类和 NLP 任务等方面的性能,其优于大量基线模型,并具有更高的任务泛化能力。
May, 2023
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
在这项研究中,我们介绍了一种名为 Implicit In-context Learning (I2CL) 的创新范式,通过将演示样例吸收到激活空间中,解决了传统 In-context Learning (ICL) 所面临的挑战。经过实证评估,I2CL 在三种模型架构的九个真实世界任务上实现了接近零成本的少样本性能,并且对演示样例的变化表现出鲁棒性。此外,I2CL 促进了一种名为 “task-ids” 的新颖表示,增强了任务相似性检测能力并实现了有效的迁移学习。
May, 2024
本文通过一系列来自常见文本分类任务的实验,实证地探索了解释大型语言模型(LLMs)在上下文中学习的三种假设,证伪了前两种假设,并提供了支持最后一种假设的证据。结果表明,LLMs 能够通过组合在预训练期间学习的任务来上下文中学习一个新任务。
Jun, 2024
通过数据生成的视角重新解释最近的努力,并展示了流行技术解决方案的潜在更广泛的用途,接近了一个系统的角度。对于概念定义,我们严格采用技能学习和技能识别的术语。我们还对不同解决方案的优点和缺点进行了全面研究,并突显了在数据生成视角下它们之间的统一性,为未来研究结合不同研究线路的优势建立了技术基础。
Feb, 2024
通过研究预训练数据集中任务多样性的不同,探究在不同任务多样性阈值下,在新的情境下可以有多大能力。结果表明,如果预训练的数据具有足够的多样性,那么可以在新任务中解决问题,但是这种能力依赖于违背 Bayes 最优估计并将 Gauss 先验分布中所有任务的能力。
Jun, 2023
文中介绍了一种名为 CoAT 的优化方法,利用模拟训练数据来帮助语言模型更好的利用其背景知识。使用 CoAT 训练的 In-context learners 性能表现良好,达到了在多任务训练中更大规模模型的性能水平。
May, 2023