使用 Transformer 神经过程的上下文学习

Jun, 2024

使用 Transformer 神经过程的上下文学习

In-Context In-Context Learning with Transformer Neural Processes

Matthew Ashman, Cristiana Diaconu, Adrian Weller, Richard E. Turner

TL;DR神经过程（NPs）是一类强大的元学习模型，旨在逼近元数据集中每个数据集从中抽样得到的地面真实随机过程的后验预测映射。我们在 NP 中增加了集成其他类似数据集的功能，描述了此范例作为上下文中的上下文学习。标准的 NP 架构（如卷积条件 NP（ConvCNP）或转换器神经过程（TNPs）系列）无法进行上下文中的上下文学习，因为它们只能在单个数据集上进行条件。我们通过开发上下文中的伪标记 TNP（ICICL-TNP）来解决这个问题。 ICICL-TNP 基于 PT-TNPs 系列，利用基于伪标记的转换器架构来规避常规转换器架构的二次计算复杂性。重要的是，ICICL-TNP 能够在数据点集和数据集集上进行条件修正，从而实现上下文中的上下文学习。我们在多个实验中证明了上下文中的上下文学习的重要性和 ICICL-TNP 的有效性。

Abstract

neural processes (NPs) are a powerful family of meta-learning models that seek to approximate the posterior predictive map of the ground-truth stochastic process from which each dataset in a meta-dataset is sampl

neural processes in-context learning meta-learning icicl-tnp transformer architectures

发现论文，激发创造

变压器神经过程：通过序列建模实现不确定性感知的元学习

本文提出了一种基于 Transformer 架构的新型神经过程模型（TNPs），用于解决元学习中的不确定性问题，具有先进的表现，适用于元回归、图像完成、上下文多臂赌博机和贝叶斯优化等各种基准问题。

Jul, 2022

多层感知器学习上下文

在这项研究中，我们发现多层感知器（MLPs）和密切相关的 MLP-Mixer 模型可以像 Transformer 模型一样有效地进行上下文学习，并且在一些涉及关系推理的任务中，MLPs 表现更优，这一结果挑战了以往对简单连通模型的一些假设。

May, 2024

Transformers 作为统计学家：具有证明的上下文学习和上下文算法选择

本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论，阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法，基于上下文梯度下降机制的实现，以及不同算法之间的自适应选择。

Jun, 2023

预训练以学习上下文

通过在普通文本语料库中使用简单语言建模目标来预训练模型，PICL 能够增强语言模型的上下文学习能力，从而提高其在文本分类和 NLP 任务等方面的性能，其优于大量基线模型，并具有更高的任务泛化能力。

May, 2023

潜在瓶颈关注神经过程

本论文提出了一种名为 “潜在瓶颈注意力神经过程（LBANPs）” 的神经过程变种，旨在在保持高的预测性能的前提下实现计算效率，通过在少量的潜在向量上使用多个跨向量的注意力机制，将上下文数据集编码到潜在向量中，这些向量可以在处理目标数据点时进行高效查询形成预测结果。

Nov, 2022

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024

带有随机注意力机制的神经过程：更多关注上下文数据集

该研究提出了一种基于随机注意力机制的神经过程方法来捕捉适当的上下文信息，从信息论的角度证明了该方法鼓励上下文嵌入与目标数据集不同，可以实现上下文嵌入和目标数据集中的特征独立处理，在各种领域的实验中，该方法明显优于传统的神经过程方法。

Apr, 2022

等变变换神经网络过程的翻译

本文介绍了一种新的具有平移等变性的神经过程（TNPs）家族，通过对合成和真实世界的时空数据进行广泛的实验，相对于非平移等变性对照组和其他 NP 基线，我们证明了 TE-TNPs 的有效性。

Jun, 2024

神经过程中推理结构的利用

本研究提供一个框架，允许神经过程（NPs）的潜变量被赋予由图形模型定义的丰富先验。将分布假设直接转化为上下文集合的适当聚合策略，并通过消息传递过程进行端到端优化。使用混合和学生 - t 假设证明了该框架的普适性，从而提高了函数建模和测试时的鲁棒性。

Jun, 2023

关于现场学习的调查

本文概述了大型语言模型的新范式 —— 上下文学习，并探讨了训练策略和演示设计策略等高级技术，以及上下文学习所面临的挑战和未来方向。

Dec, 2022