MetaICL：在上下文中学习学习

ACLOct, 2021

MetaICL: Learning to Learn In Context

Sewon Min, Mike Lewis, Luke Zettlemoyer, Hannaneh Hajishirzi

TL;DRMetaICL 是一种新的元训练框架，用于少样本学习，通过在大量训练任务上进行元训练，调整预训练模型进行上下文学习，从而在测试时仅通过少量训练例子进行条件化得到更好的学习效果，该框架在包括分类、问答、自然语言推理、释义检测等在内的 142 个 NLP 数据集上进行了实验，比没有元训练的上下文学习、多任务学习加零 - shot 转移等基线表现更好，在元训练任务与目标任务之间存在域变换时性能提升尤其显著。同时，MetaICL 方法和通常情况下全微调的模型表现相当甚至更优，甚至比参数近 8 倍的更大的模型表现更好，最后也证明了 MetaICL 可以和人工编写的指令相辅相成，两种方法相结合可以得到最佳的性能

Abstract

We introduce metaicl (Meta-training for in-context learning), a new meta-training framework for few-shot learning where a →

metaicl few-shot learning pretrained language model in-context learning nlp datasets

发现论文，激发创造

预训练以学习上下文

通过在普通文本语料库中使用简单语言建模目标来预训练模型，PICL 能够增强语言模型的上下文学习能力，从而提高其在文本分类和 NLP 任务等方面的性能，其优于大量基线模型，并具有更高的任务泛化能力。

May, 2023

大型语言模型中的元上下文学习

本文介绍了大型语言模型在上下文学习中的递归学习能力，即元上下文学习。作者以两个理想化的领域为例，展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识，并修改其上下文学习策略。最后，作者通过真实世界回归问题的基准测试发现，元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境，可以提高大家对上下文学习的理解，为大型语言模型的应用打下基础。

May, 2023

基于语言模型上下文调整的元学习

通过将调整和预测转化为简单的序列预测问题，我们提出了 'in-context tuning' 方式来解决 NLP 中的元学习问题，并在两个文本分类任务组合上对其进行了基准测试。在所有模型尺寸上，相对于梯度下降调整模型的一阶 MAML，我们的方法更好地利用了 LM 的归纳偏差，在 BinaryClfs 上绝对 AUC ROC 评分提高了 6％。与不调优的 'in-context learning' 相比较，'in-context tuning' 直接通过元训练从 'in-context' 中学习。在 BinaryClfs 上，'in-context tuning' 将平均 AUC-ROC 分数提高了 10％，并且减少了关于示例顺序的方差 6 倍，示例选择 2 倍。

Oct, 2021

在上下文中的学习蒸馏：转移预训练语言模型的少样本学习能力

通过 in-context learning distillation 技术，将大型已预训练的语言模型的能力转移至小型模型，同时结合语言建模目标，提高了多任务学习和少样本学习的性能，实验结果表明，多任务学习下拥有语言建模目标的 in-context learning objectives 可以取得最佳效果。

Dec, 2022

MAML-en-LLM：模型不可知的元训练 LLMs 对于改进上下文学习

我们提出了 MAML-en-LLM，一种新的元训练大型语言模型的方法，可以学习到真正可泛化的参数，不仅在不同任务上表现良好，还适应了未知任务，并且在性能和适应性能上得到了显著提升。

May, 2024

MetaVL：从语言模型向视觉语言模型转移上下文学习能力

本文研究如何使图像 - 语言领域的大规模预训练模型具备上下文学习的能力，通过将自然语言处理领域的元学习应用于视觉 - 语言领域，并使用视觉编码器实现跨域转移学习，实验证明可以显著提高视觉问答任务的上下文学习能力，甚至可以补偿模型的大小并取得比基线模型更好的表现。

Jun, 2023

神经机器翻译模型可以学习成为少样本学习器

大型语言模型的新兴能力是利用少量示例来学习在新领域和任务中执行的能力，本文通过针对专门的培训目标进行微调展示了一个更小的模型可以被训练用于执行上下文学习，在神经机器翻译的领域适应任务上进行了示例。通过这种上下文学习的能力，模型可以利用相关的少量示例将其输出适应到该领域。我们将这种域自适应的质量与传统的监督技术以及基于 400 亿参数的大型语言模型的上下文学习进行了比较。我们的方法允许对多个领域进行高效的批处理推理，并在翻译质量和即时适应率方面优于现有技术基线，也就是在展示一次示例后重新生成特定术语的能力。

Sep, 2023

ParaICL: 面向鲁棒的并行上下文学习

通过并行处理不同批次的样本，依据语义相似性在上下文学习中同时使用所有示范样本，并通过加权平均语义目标选择最合适的标记，从而提高 ICL 的有效性。

Mar, 2024

隐式上下文学习

在这项研究中，我们介绍了一种名为 Implicit In-context Learning (I2CL) 的创新范式，通过将演示样例吸收到激活空间中，解决了传统 In-context Learning (ICL) 所面临的挑战。经过实证评估，I2CL 在三种模型架构的九个真实世界任务上实现了接近零成本的少样本性能，并且对演示样例的变化表现出鲁棒性。此外，I2CL 促进了一种名为 “task-ids” 的新颖表示，增强了任务相似性检测能力并实现了有效的迁移学习。

May, 2024

概念感知训练提高语言模型的上下文学习能力

文中介绍了一种名为 CoAT 的优化方法，利用模拟训练数据来帮助语言模型更好的利用其背景知识。使用 CoAT 训练的 In-context learners 性能表现良好，达到了在多任务训练中更大规模模型的性能水平。

May, 2023