批处理 - ICL: 有效、高效和无序背景学习

Jan, 2024

批处理 - ICL: 有效、高效和无序背景学习

Batch-ICL: Effective, Efficient, and Order-Agnostic In-Context Learning

Kaiyi Zhang, Ang Lv, Yuhan Chen, Hansen Ha, Tao Xu...

TL;DR通过将上下文学习（ICL）视为元优化过程，本文解释了为什么 LLMs 对 ICL 示例的顺序敏感，从而引导我们开发了一种有效、高效且无序的 ICL 推理算法 Batch-ICL。与标准的 N-shot 学习方法不同，Batch-ICL 使用 N 个独立的 1-shot 前向计算，并聚合得到的元梯度，然后将这些聚合的元梯度应用于零 - shot 学习以生成最终预测。该批处理方法使 LLM 对 ICL 示例的顺序不敏感。通过大量的实验和分析，我们证明 Batch-ICL 一直优于大多数示例序列的排列。在某些情况下，它甚至超过了标准 ICL 的最佳顺序的性能，同时减少了所需的计算资源。此外，我们还开发了一种新颖的 Batch-ICL 变体，具有多个 “epochs” 的元优化，这种变体隐式地探索 ICL 示例的排列，进一步增强了 ICL 的性能。

Abstract

In this paper, by treating in-context learning (ICL) as a meta-optimization process, we explain why llms are sensitive to the order of ICL

in-context learning llms batch-icl order-agnostic inference algorithm meta-optimization

发现论文，激发创造

ParaICL: 面向鲁棒的并行上下文学习

通过并行处理不同批次的样本，依据语义相似性在上下文学习中同时使用所有示范样本，并通过加权平均语义目标选择最合适的标记，从而提高 ICL 的有效性。

Mar, 2024

由标签分布指导的上下文示例排序

通过优化问题，研究通过预训练语言模型的上下文学习中的示例排序，以提高文本分类的准确性和选择更好的上下文示例。

Feb, 2024

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023

多样情境下的多次学习

大型语言模型在少样本上下文学习方面表现出色，通过在推断时从上下文中提供的少量示例进行学习，无需任何权重更新。新的扩展上下文窗口使我们能够研究在上下文中使用数百或数千个示例进行学习的多样本学习方法。从少样本到多样本，我们观察到在各种生成性和判别性任务中取得了显著的性能提升。然而，多样本学习在可用的人类生成示例方面存在瓶颈。为了缓解这一限制，我们探索了两种新的设置：增强和无监督的多样本学习方法。增强多样本学习方法使用模型生成的思考链替代人类示例。无监督多样本学习方法则完全取消了提示信息中的理由，并仅通过领域特定问题对模型进行提示。我们发现，增强和无监督多样本学习方法在多样本学习中非常有效，特别是在复杂推理任务中。最后，我们证明与少样本学习不同，多样本学习可以有效地覆盖预训练偏差，并学习具有数值输入的高维函数。我们的分析还揭示了下一个标记预测损失作为下游上下文学习性能指标的局限性。

Apr, 2024

选择哪些示例进行上下文学习？实现有效和高效的选择

通过提出 AdaICL 算法，本研究在大型语言模型中探索了一种基于主动学习的方法，通过优化自适应的示例选择策略，提高了性能和预算效率。

Oct, 2023

逐步学习：通过课程学习增强上下文学习能力

演示排序是上下文学习中的重要策略，对大型语言模型的性能有显著影响。我们提出了少样本上下文课程学习（ICCL），一种简单但有效的演示排序方法，其在推理过程中逐渐增加提示演示的复杂性。通过设计三个实验来探讨 ICCL 的有效性、LLM 的 ICCL 能力形成机制以及排序主题的影响，实验结果表明，ICCL 在指导调整阶段对开源 LLM 有效。此外，与人类相比，LLM 对演示的难度层次辨别能力较弱。我们在此 https URL 上发布了我们的代码。

Feb, 2024

隐式上下文学习

在这项研究中，我们介绍了一种名为 Implicit In-context Learning (I2CL) 的创新范式，通过将演示样例吸收到激活空间中，解决了传统 In-context Learning (ICL) 所面临的挑战。经过实证评估，I2CL 在三种模型架构的九个真实世界任务上实现了接近零成本的少样本性能，并且对演示样例的变化表现出鲁棒性。此外，I2CL 促进了一种名为 “task-ids” 的新颖表示，增强了任务相似性检测能力并实现了有效的迁移学习。

May, 2024

多标签文本分类的上下文学习

利用预训练的密集检索模型，我们在有限样本设置中的常见意图分类数据集上，以及特定情况下的细粒度情感分类中，优于微调性能。通过多个实验，我们分析了模型对于上下文示例和不同模型规模的利用情况，并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。

Sep, 2023

MetaICL：在上下文中学习学习

MetaICL 是一种新的元训练框架，用于少样本学习，通过在大量训练任务上进行元训练，调整预训练模型进行上下文学习，从而在测试时仅通过少量训练例子进行条件化得到更好的学习效果，该框架在包括分类、问答、自然语言推理、释义检测等在内的 142 个 NLP 数据集上进行了实验，比没有元训练的上下文学习、多任务学习加零 - shot 转移等基线表现更好，在元训练任务与目标任务之间存在域变换时性能提升尤其显著。同时，MetaICL 方法和通常情况下全微调的模型表现相当甚至更优，甚至比参数近 8 倍的更大的模型表现更好，最后也证明了 MetaICL 可以和人工编写的指令相辅相成，两种方法相结合可以得到最佳的性能

Oct, 2021

自适应上下文学习

本文提出了一种基于自适应机制的 in-context learning (ICL) 原则，通过选择和调整上下文示例来实现正确预测，从而最大化性能，并在八个不同 NLP 数据集上进行了全面评估，相对于常见实践设置，我们的 ICL 方法实现了 40% 的性能改进。

Dec, 2022