长篇上下文模型的现场学习：深入探索

Apr, 2024

长篇上下文模型的现场学习：深入探索

In-Context Learning with Long-Context Models: An In-Depth Exploration

Amanda Bertsch, Maor Ivgi, Uri Alon, Jonathan Berant, Matthew R. Gormley...

TL;DR当模型的上下文长度不断增加时，可以提供的演示数量接近整个训练数据集的规模。在多个数据集和模型上，我们研究了在这种极端规模下的上下文学习（ICL）的行为。我们展示了对于许多具有大型标签空间的数据集，性能在数百或数千个演示中仍在增加。与示例检索和微调相比，示例检索在较短的上下文长度下表现出色，但随着更多的演示，增益减弱；微调比 ICL 更依赖数据，但有时可以通过额外数据超过长上下文 ICL 的性能。我们在 ICL 设置中使用这个作为试验平台来研究上下文学习和长上下文模型的几个特性。我们展示了长上下文 ICL 比短上下文 ICL 对于随机输入乱序不太敏感，相同标签示例的分组可能对性能产生负面影响，并且我们观察到的性能提升并非来自一起编码多个示例的累积增益。我们得出结论，尽管长上下文 ICL 可能出人意料地有效，但其中大部分增益来自于重新关注类似示例而非任务学习。

Abstract

As model context lengths continue to increase, the number of demonstrations that can be provided in-context approaches the size of entire training datasets. We study the behavior of in-context learning (ICL) at t

in-context learning demonstrations label spaces example retrieval finetuning

发现论文，激发创造

多标签文本分类的上下文学习

利用预训练的密集检索模型，我们在有限样本设置中的常见意图分类数据集上，以及特定情况下的细粒度情感分类中，优于微调性能。通过多个实验，我们分析了模型对于上下文示例和不同模型规模的利用情况，并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。

Sep, 2023

少样本能否在长上下文中使用？重复上下文生成演示

利用上下文回收机制生成少数示例，提高长上下文问答任务中的大型语言模型性能。

Jun, 2024

基于检索演示的语言模型的上下文学习：一项调查

语言模型特别是预训练大型语言模型，在上下文少例学习方面表现出非凡的能力，能够在输入上下文中仅通过几个示例适应新任务。最近的一个发展是使用对每个输入查询量身定制的示例进行检索，这不仅提高了学习过程的效率和可伸缩性，还能减少手动示例选择中固有的偏差。基于鼓舞人心的结果和对检索式少例学习领域日益增长的研究，我们对该领域的研究进行了广泛的概述回顾，在此调查中，我们讨论并比较了检索模型、检索训练程序和推理算法的不同设计选择。

Jan, 2024

由标签分布指导的上下文示例排序

通过优化问题，研究通过预训练语言模型的上下文学习中的示例排序，以提高文本分类的准确性和选择更好的上下文示例。

Feb, 2024

一刀切” 不适用于所有情况：学习在语境中使用多少样本以提高文本分类效果

在这篇论文中，研究人员提出了一种新的自适应上下文学习 (AICL) 方法，通过预测分类器的 Softmax 后验概率来动态调整在推断中使用的示例数，以提高文本分类任务的性能。

Mar, 2024

关于现场学习的调查

本文概述了大型语言模型的新范式 —— 上下文学习，并探讨了训练策略和演示设计策略等高级技术，以及上下文学习所面临的挑战和未来方向。

Dec, 2022

ParaICL: 面向鲁棒的并行上下文学习

通过并行处理不同批次的样本，依据语义相似性在上下文学习中同时使用所有示范样本，并通过加权平均语义目标选择最合适的标记，从而提高 ICL 的有效性。

Mar, 2024

上下文对齐能走多远？探索上下文对齐的现状

通过分析 In-Context Alignment（ICA）的机制和适用性，本研究发现示例部分对提升模型对齐能力至关重要，同时还评估了 ICA 在不同对齐任务中的零 - shot 能力，结果显示相较于参数微调方法，ICA 在基于知识和工具应用任务上表现出更好的性能，然而在多轮对话和按指示执行任务方面仍存在某些局限性。

Jun, 2024

博士 ICL: 演示检索上下文学习

本研究表明，在语义上相似的演示可以提高大型语言模型的性能，这可以通过呈现一些示范来完成，并且可以有效地对大量语言和任务进行泛化，同时，我们还引入了任务特定的演示检索器，以进一步提高性能。

May, 2023

上下文学习的双重操作模式

通过引入概率模型，我们对上下文学习的双重工作模式进行了解释，并分析了线性函数的上下文学习行为，展示了一种可能的解释，即通过更多的上下文示例，任务学习将产生作用并减少风险。

Feb, 2024