学习正确的潜在变量是否必然改善上下文中的学习？

May, 2024

学习正确的潜在变量是否必然改善上下文中的学习？

Does learning the right latent variables necessarily improve in-context learning?

Sarthak Mittal, Eric Elmoznino, Leo Gagnon, Sangnie Bhardwaj, Dhanya Sridhar...

TL;DR对于大型自回归模型，如 Transformer，它们可以通过上下文学习 (即 ICL) 在不学习新权重的情况下解决任务，从而提供了高效解决新任务的方法。本文系统地研究了明确推断任务潜变量的效果，并发现与标准 Transformer 相比，在任务相关潜变量方面存在很少可辨别的差异，倾向于任务相关潜变量并不能普遍提高超出分布的性能；研究还发现，虽然瓶颈层可以有效地从上下文中提取潜在的任务变量，但下游处理很难利用它们进行稳健的预测。这项研究突显了 Transformer 在实现结构化的上下文学习解决方案方面的固有局限性，并表明虽然推断正确的潜变量有助于解释性，但对于解决这个问题来说并不足够。

Abstract

Large autoregressive models like transformers can solve tasks through in-context learning (ICL) without learning new weights, suggesting a

autoregressive models transformers in-context learning latent variables structured solutions

发现论文，激发创造

训练的 Transformer 学习上下文中的线性模型

研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练，实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力，且在多种分布转换下具有鲁棒性。

Jun, 2023

线性注意力下上下文学习的渐近理论

Transformers 在无需显式先前训练的情况下，基于输入示例学习和执行任务的能力，也称为上下文学习（ICL），是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案，采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加，学习曲线具有双峰，且模型的行为在低和高任务多样性之间出现相变：在低多样性情况下，模型趋向于记忆训练任务，而在高多样性情况下，它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。

May, 2024

从上下文不确定性量化中对上下文学习能力的更好理解

本文研究了 Transformer 在线性回归任务上的训练，考虑了条件期望和条件方差的双目标预测任务，提供了不确定性量化目标，并揭示了训练 Transformer 接近贝叶斯最优的理论性质，以及在处理任务转移时表现不同于贝叶斯推断的能力。

May, 2024

用于稀疏检索任务的样本高效上下文学习机制

本文研究了大型语言模型展示的 “上下文学习” 现象，并解释了预训练的 transformer 模型如何在合理的假设下执行上下文学习。我们推出了一种机制，使得 transformer 模型能够正确划分上下文，推断出稀疏线性回归假说，并应用此假说进行预测，在该学习框架中的样本复杂度保证。

May, 2023

线性回归的上下文学习需要多少预训练任务？

在这篇论文中，我们研究了通过预训练线性参数化的单层线性注意力模型进行具有高斯先验的线性回归的上下文学习（ICL），在一个最简单的设置中进行 ICL 研究。我们建立了注意力模型预训练的统计任务复杂性界限，证明了有效的预训练只需要少量独立任务。此外，我们证明了预训练模型与贝叶斯最优算法高度匹配，即在固定上下文长度下，在未见任务上实现几乎贝叶斯最优风险。这些理论发现补充了先前的实验研究，并阐明了 ICL 的统计基础。

Oct, 2023

Transformers 作为统计学家：具有证明的上下文学习和上下文算法选择

本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论，阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法，基于上下文梯度下降机制的实现，以及不同算法之间的自适应选择。

Jun, 2023

上下文化学习创建任务向量

使用全面实验证明，In-context learning 通常具有非常简单的结构，即对应于仅有查询 x 和从训练集计算得到的单个 “任务向量” 的 Transformer LLM，可将训练集 S 压缩为单个任务向量 θ(S)，并使用该任务向量来调节 Transformer 以产生输出。

Oct, 2023

预训练任务多样性与回归非贝叶斯上下文学习的出现

通过研究预训练数据集中任务多样性的不同，探究在不同任务多样性阈值下，在新的情境下可以有多大能力。结果表明，如果预训练的数据具有足够的多样性，那么可以在新任务中解决问题，但是这种能力依赖于违背 Bayes 最优估计并将 Gauss 先验分布中所有任务的能力。

Jun, 2023

非线性变压器的高效上下文学习训练：理论学习和泛化分析

通过理论分析，我们首次探讨了具有非线性自注意力和非线性 MLP 的 Transformer 模型的训练动态和 ICL 泛化能力，重点关注一组二分类任务，研究了各种因素对 ICL 泛化性能的影响，探讨了不同组件对 ICL 性能的贡献，并首次理论分析了模型修剪对 ICL 性能的影响，证明合适的基于大小的修剪可以在降低推理成本的同时对 ICL 产生最小影响，并通过数值实验验证了这些理论结果。

Feb, 2024

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024