MAML-en-LLM：模型不可知的元训练 LLMs 对于改进上下文学习

KDDMay, 2024

MAML-en-LLM：模型不可知的元训练 LLMs 对于改进上下文学习

MAML-en-LLM: Model Agnostic Meta-Training of LLMs for Improved In-Context Learning

Sanchit Sinha, Yuguang Yue, Victor Soto, Mayank Kulkarni, Jianhua Lu...

TL;DR我们提出了 MAML-en-LLM，一种新的元训练大型语言模型的方法，可以学习到真正可泛化的参数，不仅在不同任务上表现良好，还适应了未知任务，并且在性能和适应性能上得到了显著提升。

Abstract

Adapting large language models (LLMs) to unseen tasks with in-context training samples without fine-tuning remains an important research problem. To learn a robust LLM that adapts well to →

large language models meta-training unseen tasks generalizable parameters adaptation performance

发现论文，激发创造

基于语言模型上下文调整的元学习

通过将调整和预测转化为简单的序列预测问题，我们提出了 'in-context tuning' 方式来解决 NLP 中的元学习问题，并在两个文本分类任务组合上对其进行了基准测试。在所有模型尺寸上，相对于梯度下降调整模型的一阶 MAML，我们的方法更好地利用了 LM 的归纳偏差，在 BinaryClfs 上绝对 AUC ROC 评分提高了 6％。与不调优的 'in-context learning' 相比较，'in-context tuning' 直接通过元训练从 'in-context' 中学习。在 BinaryClfs 上，'in-context tuning' 将平均 AUC-ROC 分数提高了 10％，并且减少了关于示例顺序的方差 6 倍，示例选择 2 倍。

Oct, 2021

MetaICL：在上下文中学习学习

MetaICL 是一种新的元训练框架，用于少样本学习，通过在大量训练任务上进行元训练，调整预训练模型进行上下文学习，从而在测试时仅通过少量训练例子进行条件化得到更好的学习效果，该框架在包括分类、问答、自然语言推理、释义检测等在内的 142 个 NLP 数据集上进行了实验，比没有元训练的上下文学习、多任务学习加零 - shot 转移等基线表现更好，在元训练任务与目标任务之间存在域变换时性能提升尤其显著。同时，MetaICL 方法和通常情况下全微调的模型表现相当甚至更优，甚至比参数近 8 倍的更大的模型表现更好，最后也证明了 MetaICL 可以和人工编写的指令相辅相成，两种方法相结合可以得到最佳的性能

Oct, 2021

自然语言理解金融任务的模型无关元学习

本文研究了模型无关元学习算法（MAML）在低资源金融自然语言理解（NLU）任务中的应用，证明了该算法可使模型快速适应低资源情境并获得最佳性能。

Mar, 2023

低资源神经机器翻译元学习

本文利用元学习算法 (MAML) 扩展低资源 NMT 问题，并通过多语言高资源任务进行学习来适应低资源语言，并利用全局词汇表解决不同语言的输入输出错配，在使用 18 种欧洲语言作为源任务和 5 种不同的语言作为目标任务的情况下，相对于基于多语言、迁移学习的方法，表明所提出的方法显著优于现有方法，并仅需少量训练示例即可获得具有竞争力的 NMT 系统。

Aug, 2018

语言模型利用交叉任务上下文学习解决数据稀缺的新任务

该研究论文探讨了大型语言模型 (LLMs) 是否能够根据不同任务示例的上下文信号来解决新任务，并设计了一个跨任务提示设置，并表明 LLMs 在无需上下文提示的情况下能够获得显著的性能提升，同时展示了模型激活相似性与跨任务示例效果之间的强相关性。

May, 2024

通过任务感知调节的多模态模型无关元学习

本文介绍了一种增强的 MAML 框架，该框架能够在多模态任务分布中识别任务模式并通过梯度更新快速适应，从而更有效地进行元学习，同时在回归、图像分类和强化学习等多种领域中进行了实验验证。

Oct, 2019

探索元学习算法在低资源自然语言理解任务中的应用

本研究探讨了基于元学习算法的模型无关元学习算法（MAML）及其变体，以解决低资源自然语言理解任务中现有方法表现不佳的问题，并在 GLUE 基准测试中验证了该方法的有效性。

Aug, 2019

iTAML: 一种增量式任务无关元学习方法

本文提出了一种基于元学习的新方法，通过学习一组不针对旧任务也不针对新任务的广义参数来避免深度神经网络的快速衰落问题，并在五个数据集上进行广泛实验，实现了明显的改进

Mar, 2020

估计大型语言模型能力的方法（无需标记测试数据）

本文提出利用元模型，基于大型语言模型的置信度得分预测新任务的扩展学习（ICL）准确度，并在四个大型语言模型和三个任务集上对其进行了基准测试。

May, 2023

大型语言模型中的元上下文学习

本文介绍了大型语言模型在上下文学习中的递归学习能力，即元上下文学习。作者以两个理想化的领域为例，展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识，并修改其上下文学习策略。最后，作者通过真实世界回归问题的基准测试发现，元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境，可以提高大家对上下文学习的理解，为大型语言模型的应用打下基础。

May, 2023