在上下文中的学习蒸馏：转移预训练语言模型的少样本学习能力

Dec, 2022

在上下文中的学习蒸馏：转移预训练语言模型的少样本学习能力

In-context Learning Distillation: Transferring Few-shot Learning Ability of Pre-trained Language Models

Yukun Huang, Yanda Chen, Zhou Yu, Kathleen McKeown

TL;DR通过 in-context learning distillation 技术，将大型已预训练的语言模型的能力转移至小型模型，同时结合语言建模目标，提高了多任务学习和少样本学习的性能，实验结果表明，多任务学习下拥有语言建模目标的 in-context learning objectives 可以取得最佳效果。

Abstract

Given the success with in-context learning of large pre-trained language models, we introduce in-context learning distillation to transfer

in-context learning distillation few-shot learning language modeling meta-ict

发现论文，激发创造

MetaICL：在上下文中学习学习

MetaICL 是一种新的元训练框架，用于少样本学习，通过在大量训练任务上进行元训练，调整预训练模型进行上下文学习，从而在测试时仅通过少量训练例子进行条件化得到更好的学习效果，该框架在包括分类、问答、自然语言推理、释义检测等在内的 142 个 NLP 数据集上进行了实验，比没有元训练的上下文学习、多任务学习加零 - shot 转移等基线表现更好，在元训练任务与目标任务之间存在域变换时性能提升尤其显著。同时，MetaICL 方法和通常情况下全微调的模型表现相当甚至更优，甚至比参数近 8 倍的更大的模型表现更好，最后也证明了 MetaICL 可以和人工编写的指令相辅相成，两种方法相结合可以得到最佳的性能

Oct, 2021

大型语言模型中的元上下文学习

本文介绍了大型语言模型在上下文学习中的递归学习能力，即元上下文学习。作者以两个理想化的领域为例，展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识，并修改其上下文学习策略。最后，作者通过真实世界回归问题的基准测试发现，元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境，可以提高大家对上下文学习的理解，为大型语言模型的应用打下基础。

May, 2023

基于语言模型上下文调整的元学习

通过将调整和预测转化为简单的序列预测问题，我们提出了 'in-context tuning' 方式来解决 NLP 中的元学习问题，并在两个文本分类任务组合上对其进行了基准测试。在所有模型尺寸上，相对于梯度下降调整模型的一阶 MAML，我们的方法更好地利用了 LM 的归纳偏差，在 BinaryClfs 上绝对 AUC ROC 评分提高了 6％。与不调优的 'in-context learning' 相比较，'in-context tuning' 直接通过元训练从 'in-context' 中学习。在 BinaryClfs 上，'in-context tuning' 将平均 AUC-ROC 分数提高了 10％，并且减少了关于示例顺序的方差 6 倍，示例选择 2 倍。

Oct, 2021

MetaVL：从语言模型向视觉语言模型转移上下文学习能力

本文研究如何使图像 - 语言领域的大规模预训练模型具备上下文学习的能力，通过将自然语言处理领域的元学习应用于视觉 - 语言领域，并使用视觉编码器实现跨域转移学习，实验证明可以显著提高视觉问答任务的上下文学习能力，甚至可以补偿模型的大小并取得比基线模型更好的表现。

Jun, 2023

神经机器翻译模型可以学习成为少样本学习器

大型语言模型的新兴能力是利用少量示例来学习在新领域和任务中执行的能力，本文通过针对专门的培训目标进行微调展示了一个更小的模型可以被训练用于执行上下文学习，在神经机器翻译的领域适应任务上进行了示例。通过这种上下文学习的能力，模型可以利用相关的少量示例将其输出适应到该领域。我们将这种域自适应的质量与传统的监督技术以及基于 400 亿参数的大型语言模型的上下文学习进行了比较。我们的方法允许对多个领域进行高效的批处理推理，并在翻译质量和即时适应率方面优于现有技术基线，也就是在展示一次示例后重新生成特定术语的能力。

Sep, 2023

概念感知训练提高语言模型的上下文学习能力

文中介绍了一种名为 CoAT 的优化方法，利用模拟训练数据来帮助语言模型更好的利用其背景知识。使用 CoAT 训练的 In-context learners 性能表现良好，达到了在多任务训练中更大规模模型的性能水平。

May, 2023

轻量级上下文调整的多模态统一模型

通过引入 MultiModal In-conteXt Tuning (M$^2$IXT) 模块，扩展感知范围来提升多模式语境学习的能力，并通过混合任务策略训练，实现在多个任务和数据集上的快速少样本适应，在模型参数方面显著减小，为多模式语境学习者提供了灵活而有效的解决方案。

Oct, 2023

多任务训练如何影响 Transformer 的上下文能力？对功能类别的研究调查

结合多任务学习和上下文学习，在大型语言模型中提出了有效的课程学习策略，使得模型能够高效地学习任务并对分布外的例子具有稳定的收敛性。

Apr, 2024

语言模型压缩中的语言上下文提取

本文提出了一种新的语言表示学习的知识蒸馏方法，通过单词关系和层变换关系传递上下文知识，无需限制教师和学生的架构变化，验证了该方法在语言理解任务的各种架构和 DynaBERT 等自适应尺寸剪枝方法的挑战性基准上的有效性。

Sep, 2021

蒸馏上下文中的学习

本文提出了上下文蒸馏的方法，以内化语言模型通过上下文提示或草稿本获得的性能早期；该方法可以内化抽象任务说明，步骤推理以及具体训练示例，从而有效地训练语言模型。

Sep, 2022