通过数据生成的视角重新解释最近的努力,并展示了流行技术解决方案的潜在更广泛的用途,接近了一个系统的角度。对于概念定义,我们严格采用技能学习和技能识别的术语。我们还对不同解决方案的优点和缺点进行了全面研究,并突显了在数据生成视角下它们之间的统一性,为未来研究结合不同研究线路的优势建立了技术基础。
Feb, 2024
本文概述了大型语言模型的新范式 —— 上下文学习,并探讨了训练策略和演示设计策略等高级技术,以及上下文学习所面临的挑战和未来方向。
Dec, 2022
提出了一种新的学习范式 —— 提示增强的上下文学习(Hint-enhanced In-Context Learning,HICL),通过从示范中提取与查询相关的知识,以更明确的方式提示大型语言模型(LLM),用于开放域问答,从而提高性能。
Nov, 2023
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
本文发现采用上下文学习作为指示学习方法(ICIL)可提高预训练和指示微调模型的零样本任务泛化能力,使用固定的单一提示来评估所有任务。
Feb, 2023
通过注入事实知识、选择高相关性示例,并基于先前知识校准预测结果,提出了一种称为 KICT 的知识内外训练框架,以进一步改善 In-Context Learning (ICL) 的性能。在多个文本分类和问题回答任务上的实验证明,KICT 明显优于强基线模型,分别在文本分类和问题回答任务上的准确性提高了超过 13%和 7%。
GoLLIE 模型是一种基于大型语言模型的信息抽取模型,通过遵循详细的注释指南,能够在未见过的任务上获得零样本结果,并在综合评估中表现优于之前的尝试。
Oct, 2023
在本研究中,我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性,并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现,相较于模型大小,模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时,我们还发现,在代码上进行预训练的模型更好地推广,并在更大程度上受到思维链提示的益处。
通过使用影响函数分析训练样本的影响力,我们提出了一种名为 InfICL 的演示选择方法,用于选择对 In-Context Learning(ICL)有高影响力的训练样本,从而提高 ICL 的泛化性能,并在多个实际数据集上展示了 InfICL 相对于现有基准方法的优点。