少样本能否在长上下文中使用?重复上下文生成演示
大型语言模型在少样本上下文学习方面表现出色,通过在推断时从上下文中提供的少量示例进行学习,无需任何权重更新。新的扩展上下文窗口使我们能够研究在上下文中使用数百或数千个示例进行学习的多样本学习方法。从少样本到多样本,我们观察到在各种生成性和判别性任务中取得了显著的性能提升。然而,多样本学习在可用的人类生成示例方面存在瓶颈。为了缓解这一限制,我们探索了两种新的设置:增强和无监督的多样本学习方法。增强多样本学习方法使用模型生成的思考链替代人类示例。无监督多样本学习方法则完全取消了提示信息中的理由,并仅通过领域特定问题对模型进行提示。我们发现,增强和无监督多样本学习方法在多样本学习中非常有效,特别是在复杂推理任务中。最后,我们证明与少样本学习不同,多样本学习可以有效地覆盖预训练偏差,并学习具有数值输入的高维函数。我们的分析还揭示了下一个标记预测损失作为下游上下文学习性能指标的局限性。
Apr, 2024
当模型的上下文长度不断增加时,可以提供的演示数量接近整个训练数据集的规模。在多个数据集和模型上,我们研究了在这种极端规模下的上下文学习(ICL)的行为。我们展示了对于许多具有大型标签空间的数据集,性能在数百或数千个演示中仍在增加。与示例检索和微调相比,示例检索在较短的上下文长度下表现出色,但随着更多的演示,增益减弱;微调比 ICL 更依赖数据,但有时可以通过额外数据超过长上下文 ICL 的性能。我们在 ICL 设置中使用这个作为试验平台来研究上下文学习和长上下文模型的几个特性。我们展示了长上下文 ICL 比短上下文 ICL 对于随机输入乱序不太敏感,相同标签示例的分组可能对性能产生负面影响,并且我们观察到的性能提升并非来自一起编码多个示例的累积增益。我们得出结论,尽管长上下文 ICL 可能出人意料地有效,但其中大部分增益来自于重新关注类似示例而非任务学习。
Apr, 2024
使用大型语言模型作为评判器评估大型语言模型的性能,可能引入潜在的偏见,并对评估结果的可靠性提出关切。为了缓解这个问题,我们提出和研究两种版本的多示例上下文提示(加强和无监督),以帮助 GPT-4o 作为评判器进行单答案打分。基于设计的提示,我们研究了增加上下文示例数量对评估的一致性和质量的影响。此外,我们首次揭示了 GPT-4o 作为评判器在两两比较中存在的符号偏差,并提出了一种简单而有效的方法来缓解它。实验结果显示,先进的长上下文语言模型,如 GPT-4o,在多示例情况下的表现优于零示例情况。同时,实验结果进一步验证了符号偏差缓解方法的有效性。
Jun, 2024
通过并行处理不同批次的样本,依据语义相似性在上下文学习中同时使用所有示范样本,并通过加权平均语义目标选择最合适的标记,从而提高 ICL 的有效性。
Mar, 2024
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
语言模型特别是预训练大型语言模型,在上下文少例学习方面表现出非凡的能力,能够在输入上下文中仅通过几个示例适应新任务。最近的一个发展是使用对每个输入查询量身定制的示例进行检索,这不仅提高了学习过程的效率和可伸缩性,还能减少手动示例选择中固有的偏差。基于鼓舞人心的结果和对检索式少例学习领域日益增长的研究,我们对该领域的研究进行了广泛的概述回顾,在此调查中,我们讨论并比较了检索模型、检索训练程序和推理算法的不同设计选择。
Jan, 2024
本文提出了 Self-ICL,一种基于零 - shot 学习的简单框架,用于优化大型语言模型的内在能力,并创造了虚拟演示的概念以有效地进行 ICL。通过在 BIG-Bench Hard 上进行的评估,该方法能够显着提高模型的性能。
May, 2023
我们研究了如何减少示范数量,同时保持竞争性能。我们提出了 SeCoKD,一种自我知识蒸馏训练框架,通过将学生模型与大量提示变体对齐,从而提高单个示范的利用率。结果表明我们的方法在零示范和一示范设置中分别比基准模型和监督微调 (SFT) 的性能高出 30%和 10%。此外,SeCoKD 在新任务评估时几乎没有负面作用,比监督微调更稳健。
Jun, 2024
大型语言模型的新兴能力是利用少量示例来学习在新领域和任务中执行的能力,本文通过针对专门的培训目标进行微调展示了一个更小的模型可以被训练用于执行上下文学习,在神经机器翻译的领域适应任务上进行了示例。通过这种上下文学习的能力,模型可以利用相关的少量示例将其输出适应到该领域。我们将这种域自适应的质量与传统的监督技术以及基于 400 亿参数的大型语言模型的上下文学习进行了比较。我们的方法允许对多个领域进行高效的批处理推理,并在翻译质量和即时适应率方面优于现有技术基线,也就是在展示一次示例后重新生成特定术语的能力。
Sep, 2023