神经网络中的元（脱离上下文）学习

Oct, 2023

神经网络中的元（脱离上下文）学习

Meta- (out-of-context) learning in neural networks

Dmitrii Krasheninnikov, Egor Krasheninnikov, Bruno Mlodozeniec, David Krueger

TL;DR通过合成实验，我们发现了被称为 meta-OCL 的现象，该现象使 LLMs 更容易 “内部化” 广泛有用的文本的语义内容，并在适当的情况下使用它。我们在合成计算机视觉环境中进一步证明了 meta-OCL，并提出了两个假设：一个依赖模型在其参数中存储知识的方式，另一个暗示基于梯度下降优化器的隐式梯度对齐偏差可能是其原因。最后，我们思考了我们的研究结果对未来人工智能系统能力的暗示，并讨论了潜在的风险。

Abstract

Brown et al. (2020) famously introduced the phenomenon of in-context learning in large language models (LLMs). We establish the existence of a phenomenon we call $\textbf{meta-out-of-context learning (meta-OCL)}$

meta-out-of-context learning large language models semantic content knowledge storage gradient alignment bias

发现论文，激发创造

大型语言模型中的元上下文学习

本文介绍了大型语言模型在上下文学习中的递归学习能力，即元上下文学习。作者以两个理想化的领域为例，展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识，并修改其上下文学习策略。最后，作者通过真实世界回归问题的基准测试发现，元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境，可以提高大家对上下文学习的理解，为大型语言模型的应用打下基础。

May, 2023

MetaICL：在上下文中学习学习

MetaICL 是一种新的元训练框架，用于少样本学习，通过在大量训练任务上进行元训练，调整预训练模型进行上下文学习，从而在测试时仅通过少量训练例子进行条件化得到更好的学习效果，该框架在包括分类、问答、自然语言推理、释义检测等在内的 142 个 NLP 数据集上进行了实验，比没有元训练的上下文学习、多任务学习加零 - shot 转移等基线表现更好，在元训练任务与目标任务之间存在域变换时性能提升尤其显著。同时，MetaICL 方法和通常情况下全微调的模型表现相当甚至更优，甚至比参数近 8 倍的更大的模型表现更好，最后也证明了 MetaICL 可以和人工编写的指令相辅相成，两种方法相结合可以得到最佳的性能

Oct, 2021

神经网络中的现场学习出现人类课程效果

通过使用元学习进行训练的神经网络和大型语言模型，我们展示了 ' 在上下文学习 '（ICL）在涉及类似规则结构的任务中表现出了人类所示的阻塞优势，反之，在缺乏此类结构的任务上，并发的权重学习产生了人类所观察到的交错优势。

Feb, 2024

概念感知训练提高语言模型的上下文学习能力

文中介绍了一种名为 CoAT 的优化方法，利用模拟训练数据来帮助语言模型更好的利用其背景知识。使用 CoAT 训练的 In-context learners 性能表现良好，达到了在多任务训练中更大规模模型的性能水平。

May, 2023

基于语言模型上下文调整的元学习

通过将调整和预测转化为简单的序列预测问题，我们提出了 'in-context tuning' 方式来解决 NLP 中的元学习问题，并在两个文本分类任务组合上对其进行了基准测试。在所有模型尺寸上，相对于梯度下降调整模型的一阶 MAML，我们的方法更好地利用了 LM 的归纳偏差，在 BinaryClfs 上绝对 AUC ROC 评分提高了 6％。与不调优的 'in-context learning' 相比较，'in-context tuning' 直接通过元训练从 'in-context' 中学习。在 BinaryClfs 上，'in-context tuning' 将平均 AUC-ROC 分数提高了 10％，并且减少了关于示例顺序的方差 6 倍，示例选择 2 倍。

Oct, 2021

MetaVL：从语言模型向视觉语言模型转移上下文学习能力

本文研究如何使图像 - 语言领域的大规模预训练模型具备上下文学习的能力，通过将自然语言处理领域的元学习应用于视觉 - 语言领域，并使用视觉编码器实现跨域转移学习，实验证明可以显著提高视觉问答任务的上下文学习能力，甚至可以补偿模型的大小并取得比基线模型更好的表现。

Jun, 2023

多模式 LLMs 的链接上下文学习

基于多模式大型语言模型和大型语言模型，提出了一种新颖的上下文学习方法（In-Context Learning），通过加强因果关系，引导模型识别类比和数据点间的潜在因果关联，使模型能够识别未见过的图像和理解新概念更有效。

Aug, 2023

上下文感知元学习

在这项工作中，我们提出了一种元学习算法，通过在推理过程中学习新的视觉概念而无需微调，模拟了类似大型语言模型的能力。我们的方法利用一个冻结的预训练特征提取器，并将元学习重新构造为对具有已知标签的数据点和具有未知标签的测试数据点进行序列建模，从而在 11 个元学习基准中的 8 个中，超过或与元训练于这些基准的最先进算法 P>M>F 相匹配，而无需元训练或微调。

Oct, 2023

MAML-en-LLM：模型不可知的元训练 LLMs 对于改进上下文学习

我们提出了 MAML-en-LLM，一种新的元训练大型语言模型的方法，可以学习到真正可泛化的参数，不仅在不同任务上表现良好，还适应了未知任务，并且在性能和适应性能上得到了显著提升。

May, 2024

ZeroDL：基于大型语言模型的零样本分布学习文本聚类

我们提出了一种简单但有效的方法来将任务上下文化为特定的大语言模型，通过观察给定的大语言模型如何描述目标数据集，聚合大语言模型的开放式推理结果，并最终将聚合的元信息纳入实际任务中，我们展示了这种方法在文本聚类任务中的有效性，并通过上述过程的示例突出了上下文化的重要性。

Jun, 2024