元学习变形金刚进行上下文通用学习

Dec, 2022

元学习变形金刚进行上下文通用学习

General-Purpose In-Context Learning by Meta-Learning Transformers

Louis Kirsch, James Harrison, Jascha Sohl-Dickstein, Luke Metz

TL;DR本文研究了通过 Meta-learning 或者说 Learning-to-learn 的方式来训练黑盒子模型成为通用的上下文学习算法，同时发现相比于标准模型，黑盒子模型训练时的瓶颈不是参数数量而是可以访问的状态大小。此外，本文提出了一些实际操作手段，如改变训练集分布来改善通用学习算法的 Meta-training 和 Meta-generalization。

Abstract

Modern machine learning requires system designers to specify aspects of the learning pipeline, such as losses, architectures, and optimizers. meta-learning, or learning-to-learn, instead aims to learn those aspec

machine learning meta-learning black-box models general-purpose learning algorithms memory

发现论文，激发创造

大型语言模型中的元上下文学习

本文介绍了大型语言模型在上下文学习中的递归学习能力，即元上下文学习。作者以两个理想化的领域为例，展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识，并修改其上下文学习策略。最后，作者通过真实世界回归问题的基准测试发现，元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境，可以提高大家对上下文学习的理解，为大型语言模型的应用打下基础。

May, 2023

通过贝叶斯透镜进行上下文学习

本文通过多种线性和非线性函数类的实证观察，延伸了之前的研究，表明了 transformers 的理想学习者表现，并探究了其在 Bayesian 模型和多任务环境下的应用，还以傅里叶级数为例研究了其归纳偏差。

Jun, 2023

上下文感知元学习

在这项工作中，我们提出了一种元学习算法，通过在推理过程中学习新的视觉概念而无需微调，模拟了类似大型语言模型的能力。我们的方法利用一个冻结的预训练特征提取器，并将元学习重新构造为对具有已知标签的数据点和具有未知标签的测试数据点进行序列建模，从而在 11 个元学习基准中的 8 个中，超过或与元训练于这些基准的最先进算法 P>M>F 相匹配，而无需元训练或微调。

Oct, 2023

通过学习离散函数来理解 Transformer 和 LLM 中的上下文学习

为了理解上下文学习现象，最近的研究采用了一个简化的实验框架，并证明了 Transformer 可以学习各种实值函数的基于梯度的学习算法。然而，Transformer 在实现学习算法方面的局限性以及其学习其他形式算法的能力尚不明确，而这些能力在基于注意力模型中是否有限制也不清楚。此外，还需要进一步研究这些简化设置所得出的见解是否可以推广到预训练的大语言模型（LLMs）。在本研究中，我们通过以下方式来一步步回答这些问题：（a）在一个包含各种布尔函数类的测试集上，我们发现 Transformer 在更简单的任务上几乎可以与最佳学习算法相匹配，但在更复杂的任务上性能下降。此外，我们发现某些无注意力模型在一系列任务上与 Transformer 表现（几乎）一致；（b）当提供一个教学序列，即一组通过示例唯一标识一个函数类的示例时，我们发现 Transformer 学习起来更加高效。有趣的是，我们的结果表明，Transformer 可以学习实现两个不同的算法来解决一个任务，并且可以根据上下文示例的顺序自适应地选择更加高效的算法；（c）最后，我们展示了 LLMs（如 LLaMA-2、GPT-4）可以与最近邻基线在保证不在其训练集中的预测任务上竞争。

Oct, 2023

应对新的顺序决策任务的泛化学习

使用离线数据集，通过训练大型多样化模型，能够在只有少量示范数据的情况下，使自主代理器在新的任务上进行上下文学习。

Dec, 2023

转换器作为算法：上下文学习中的泛化和稳定性

本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用，提出了使用 transformer model 的方式，详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性，以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后，提出了数值评估，并验证了理论预测。

Jan, 2023

变换器在语境中能学到什么？简单函数类的案例研究

该文提出一种新的模型训练方法，称为 in-context learning，可以使 transformer 模型通过给定的输入输出对，学习出新的输入对应的输出，而无需更新参数。研究者们在极小的数据集上训练模型进行线性函数的 in-context learning，发现该模型即使出现了数据分布的改变，也能够对复杂函数进行有效和快速的学习。

Aug, 2022

多任务训练如何影响 Transformer 的上下文能力？对功能类别的研究调查

结合多任务学习和上下文学习，在大型语言模型中提出了有效的课程学习策略，使得模型能够高效地学习任务并对分布外的例子具有稳定的收敛性。

Apr, 2024

无需记忆的元学习

通过信息理论设计的元正则化目标，可以使元学习器在任务训练数据和任务测试数据之间有效地适应，成功地使用来自非相互排斥任务的数据来有效地适应新任务，并在应用场景中大幅优于标准元学习算法。

Dec, 2019

模型无关系统辨识的上下文学习

传统的系统辨识方法采用给定的输入 / 输出序列和现有的物理知识估计未知动力系统的模型。本文提出了一种新的系统辨识方法，通过预训练一个元模型来隐式表示一个类别的动力系统的主要特征，并利用 Transformer 架构实现单步预测和多步仿真任务，为系统辨识研究开辟了新的方向。

Aug, 2023