探究上下文学习的预训练动态：任务识别与任务学习

Jun, 2024

探究上下文学习的预训练动态：任务识别与任务学习

Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning

Xiaolei Wang, Xinyu Tang, Wayne Xin Zhao, Ji-Rong Wen

TL;DR利用预先训练的先验知识，通过任务识别和任务学习两种能力的竞争来促进上下文学习的出现，并提出了一种简单而有效的方法，在推理时间内更好地整合这两种能力。通过自适应集成学习，可以显著提高上下文学习的性能，使两个小模型的性能超过具有两倍参数的大模型。

Abstract

The emergence of in-context learning (ICL) is potentially attributed to two major abilities: task recognition (TR) for recognizing the task from demonstrations and utilizing pre-trained priors, and →

in-context learning task recognition task learning pre-training dynamics adaptive ensemble learning

发现论文，激发创造

关于上下文学习的内容：“学习” 上下文中的任务识别和任务学习的区别

本研究探讨了大型语言模型利用情境学习来解决只有少量演示的任务的机制，发现情境学习从两个方面发挥作用：任务识别和任务学习，具有不同的性质和特点。

May, 2023

上下文学习的双重操作模式

通过引入概率模型，我们对上下文学习的双重工作模式进行了解释，并分析了线性函数的上下文学习行为，展示了一种可能的解释，即通过更多的上下文示例，任务学习将产生作用并减少风险。

Feb, 2024

通过支持预训练数据理解上下文学习

通过分析预训练数据，研究了上下文学习在自然语言处理任务中的表现，并发现罕见、长尾词汇的含量较高的、具有挑战性的训练数据可以显著提高语言模型的上下文学习能力，将有助于指导未来预训练数据的构建。

Jun, 2023

预训练以学习上下文

通过在普通文本语料库中使用简单语言建模目标来预训练模型，PICL 能够增强语言模型的上下文学习能力，从而提高其在文本分类和 NLP 任务等方面的性能，其优于大量基线模型，并具有更高的任务泛化能力。

May, 2023

探究上下文学习行为：与监督学习的比较

大型语言模型（LLMs）在上下文学习（ICL）方面展示了显着的能力，在没有明确预训练的情况下，仅通过少量的训练示例学习新任务。然而，尽管 LLMs 获得了成功，对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中，为了对 ICL 的学习行为有所了解，我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs，并研究它们在一系列分类任务中在标签扰动（即嘈杂标签和标签不平衡）下的表现。通过广泛的实验证明，我们首先发现黄金标签对下游上下文性能有显著影响，尤其是对于大型语言模型；然而，对于所有模型大小，不平衡标签对 ICL 的影响较小。其次，通过与 SL 进行比较，我们实证表明 ICL 对标签扰动的敏感性较低，并且随着模型大小的增加，ICL 逐渐获得与 SL 相当的性能。

Jul, 2023

隐式上下文学习

在这项研究中，我们介绍了一种名为 Implicit In-context Learning (I2CL) 的创新范式，通过将演示样例吸收到激活空间中，解决了传统 In-context Learning (ICL) 所面临的挑战。经过实证评估，I2CL 在三种模型架构的九个真实世界任务上实现了接近零成本的少样本性能，并且对演示样例的变化表现出鲁棒性。此外，I2CL 促进了一种名为 “task-ids” 的新颖表示，增强了任务相似性检测能力并实现了有效的迁移学习。

May, 2024

语言模型在上下文中学习什么？结构任务假设

本文通过一系列来自常见文本分类任务的实验，实证地探索了解释大型语言模型（LLMs）在上下文中学习的三种假设，证伪了前两种假设，并提供了支持最后一种假设的证据。结果表明，LLMs 能够通过组合在预训练期间学习的任务来上下文中学习一个新任务。

Jun, 2024

从数据生成的角度探究应境学习的机制

通过数据生成的视角重新解释最近的努力，并展示了流行技术解决方案的潜在更广泛的用途，接近了一个系统的角度。对于概念定义，我们严格采用技能学习和技能识别的术语。我们还对不同解决方案的优点和缺点进行了全面研究，并突显了在数据生成视角下它们之间的统一性，为未来研究结合不同研究线路的优势建立了技术基础。

Feb, 2024

预训练任务多样性与回归非贝叶斯上下文学习的出现

通过研究预训练数据集中任务多样性的不同，探究在不同任务多样性阈值下，在新的情境下可以有多大能力。结果表明，如果预训练的数据具有足够的多样性，那么可以在新任务中解决问题，但是这种能力依赖于违背 Bayes 最优估计并将 Gauss 先验分布中所有任务的能力。

Jun, 2023

概念感知训练提高语言模型的上下文学习能力

文中介绍了一种名为 CoAT 的优化方法，利用模拟训练数据来帮助语言模型更好的利用其背景知识。使用 CoAT 训练的 In-context learners 性能表现良好，达到了在多任务训练中更大规模模型的性能水平。

May, 2023