通过引入概率模型,我们对上下文学习的双重工作模式进行了解释,并分析了线性函数的上下文学习行为,展示了一种可能的解释,即通过更多的上下文示例,任务学习将产生作用并减少风险。
Feb, 2024
通过研究在背景语境中的大规模神经语言模型对正则语言的学习,我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势,并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。
Jan, 2024
使用全面实验证明,In-context learning 通常具有非常简单的结构,即对应于仅有查询 x 和从训练集计算得到的单个 “任务向量” 的 Transformer LLM,可将训练集 S 压缩为单个任务向量 θ(S),并使用该任务向量来调节 Transformer 以产生输出。
Oct, 2023
本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用,提出了使用 transformer model 的方式,详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性,以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后,提出了数值评估,并验证了理论预测。
Jan, 2023
通过优化问题,研究通过预训练语言模型的上下文学习中的示例排序,以提高文本分类的准确性和选择更好的上下文示例。
在这项研究中,我们介绍了一种名为 Implicit In-context Learning (I2CL) 的创新范式,通过将演示样例吸收到激活空间中,解决了传统 In-context Learning (ICL) 所面临的挑战。经过实证评估,I2CL 在三种模型架构的九个真实世界任务上实现了接近零成本的少样本性能,并且对演示样例的变化表现出鲁棒性。此外,I2CL 促进了一种名为 “task-ids” 的新颖表示,增强了任务相似性检测能力并实现了有效的迁移学习。
May, 2024
通过数据生成的视角重新解释最近的努力,并展示了流行技术解决方案的潜在更广泛的用途,接近了一个系统的角度。对于概念定义,我们严格采用技能学习和技能识别的术语。我们还对不同解决方案的优点和缺点进行了全面研究,并突显了在数据生成视角下它们之间的统一性,为未来研究结合不同研究线路的优势建立了技术基础。
本文概述了大型语言模型的新范式 —— 上下文学习,并探讨了训练策略和演示设计策略等高级技术,以及上下文学习所面临的挑战和未来方向。
Dec, 2022
本研究提出了一个基于 PAC 理论的框架来探究上下文学习及其可学性,发现在语言模型的参数保持不变的情况下,通过将下游任务的训练示例包含在其输入中,可以调整模型以执行各种下游自然语言处理任务,预训练分布是潜在任务的混合时,这些任务可以通过上下文学习有效地学习,这种学习更多地是关于识别任务而不是学习任务,并希望这一研究框架为深入理解上下文学习的新学习范式打下基础。
Mar, 2023
深入研究了在上下文学习中的限制和成功原则,并通过比较变压器和 DeepSet 架构以保持重要的离域学习不变性的区别,发现保持离域学习不变性对于成功的下一次时关键的。
Nov, 2023