Z-ICL: 伪示例下的零样本上下文学习
本文提出了 Self-ICL,一种基于零 - shot 学习的简单框架,用于优化大型语言模型的内在能力,并创造了虚拟演示的概念以有效地进行 ICL。通过在 BIG-Bench Hard 上进行的评估,该方法能够显着提高模型的性能。
May, 2023
我们提出了一种名为 Demonstration Augmentation for In-context Learning (DAIL) 的方法,通过利用模型之前预测的历史样本作为后续样本的演示,来解决大型语言模型在零 - shot 学习中依赖外部信息并且生成过程耗时的问题,同时在没有任何外部信息的情况下,DAIL 不增加推理成本可以显著提高模型的性能。
Jun, 2024
本研究表明,在语义上相似的演示可以提高大型语言模型的性能,这可以通过呈现一些示范来完成,并且可以有效地对大量语言和任务进行泛化,同时,我们还引入了任务特定的演示检索器,以进一步提高性能。
May, 2023
基于大规模语言模型的研究表明,通过上下文学习(ICL),在选择示范的少量样例时,可实现强有力的少样本学习能力。然而,ICL 的性能对少样本示范的选择非常敏感,因此选择最适合的上下文示范仍然是一个持续的挑战和一个开放性问题。本研究提出了迭代示范选择(IDS)方法,通过利用零样本思维推理(Zero-shot-CoT),IDS 迭代地选择既具有多样性又与测试样本强相关的示范。通过在示范选择之前对测试样本应用零样本思维推理,IDS 选择思维路径来作为推理的示范,从而生成答案并得到下一次迭代中用于提取新示范的相关推理路径。经过多次迭代后,IDS 采用多数投票的方法获得最终结果。通过在常识推理、问答、主题分类和情感分析等任务上进行了大量实验证明,IDS 能够一直优于现有的 ICL 示范选择方法。
Oct, 2023
在这项研究中,我们介绍了一种名为 Implicit In-context Learning (I2CL) 的创新范式,通过将演示样例吸收到激活空间中,解决了传统 In-context Learning (ICL) 所面临的挑战。经过实证评估,I2CL 在三种模型架构的九个真实世界任务上实现了接近零成本的少样本性能,并且对演示样例的变化表现出鲁棒性。此外,I2CL 促进了一种名为 “task-ids” 的新颖表示,增强了任务相似性检测能力并实现了有效的迁移学习。
May, 2024
通过并行处理不同批次的样本,依据语义相似性在上下文学习中同时使用所有示范样本,并通过加权平均语义目标选择最合适的标记,从而提高 ICL 的有效性。
Mar, 2024
语言模型特别是预训练大型语言模型,在上下文少例学习方面表现出非凡的能力,能够在输入上下文中仅通过几个示例适应新任务。最近的一个发展是使用对每个输入查询量身定制的示例进行检索,这不仅提高了学习过程的效率和可伸缩性,还能减少手动示例选择中固有的偏差。基于鼓舞人心的结果和对检索式少例学习领域日益增长的研究,我们对该领域的研究进行了广泛的概述回顾,在此调查中,我们讨论并比较了检索模型、检索训练程序和推理算法的不同设计选择。
Jan, 2024
本文提出自生成上下文学习(SG-ICL)方法,用于生成 pre-trained language model(PLM)自身的演示文稿,以便在上下文学习中减少对外部演示的依赖。在四个不同的文本分类任务上进行实验,并表明 SG-ICL 显著优于零样本学习,一般值约为 0.6 金培训样本。此外,所生成的演示文稿与从训练数据集中随机选出的演示文稿相比,表现更具一致性和低方差。
Jun, 2022
本研究提出了一个基于 in-context learning (ICL) 框架、利用大型预训练语言模型 (LM) 进行零样本和小样本学习的对话状态跟踪 (DST) 方法,重点是通过将 DST 优化为文本到 SQL 问题和使用新颖的对话检索方法,以检索标注对话作为样本来提高对答案问题的准确性。在 MultiWOZ 上的实证结果表明,IC-DST 法在小样本情境中明显优于以往最先进的模型,在只输入固定任务指令的零样本情境下,也比以往的零样本方法表现得更好。
Mar, 2022
我们提出了一种简单但有效的方法来将任务上下文化为特定的大语言模型,通过观察给定的大语言模型如何描述目标数据集,聚合大语言模型的开放式推理结果,并最终将聚合的元信息纳入实际任务中,我们展示了这种方法在文本聚类任务中的有效性,并通过上述过程的示例突出了上下文化的重要性。
Jun, 2024