Transformer 在上下文中如何学习超越简单函数？学习表示的案例研究

Oct, 2023

Transformer 在上下文中如何学习超越简单函数？学习表示的案例研究

How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations

Tianyu Guo, Wei Hu, Song Mei, Huan Wang, Caiming Xiong...

TL;DR大型语言模型在转换器架构的基础上展现了卓越的上下文学习能力，本研究旨在深入了解更复杂的情境中的上下文学习，并通过研究表示学习来探索其机制和性能。

Abstract

While large language models based on the transformer architecture have demonstrated remarkable in-context learning (ICL) capabilities, und

large language models in-context learning transformer architecture representations icl performance

发现论文，激发创造

Transformers 作为统计学家：具有证明的上下文学习和上下文算法选择

本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论，阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法，基于上下文梯度下降机制的实现，以及不同算法之间的自适应选择。

Jun, 2023

非线性变压器的高效上下文学习训练：理论学习和泛化分析

通过理论分析，我们首次探讨了具有非线性自注意力和非线性 MLP 的 Transformer 模型的训练动态和 ICL 泛化能力，重点关注一组二分类任务，研究了各种因素对 ICL 泛化性能的影响，探讨了不同组件对 ICL 性能的贡献，并首次理论分析了模型修剪对 ICL 性能的影响，证明合适的基于大小的修剪可以在降低推理成本的同时对 ICL 产生最小影响，并通过数值实验验证了这些理论结果。

Feb, 2024

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024

上下文化学习创建任务向量

使用全面实验证明，In-context learning 通常具有非常简单的结构，即对应于仅有查询 x 和从训练集计算得到的单个 “任务向量” 的 Transformer LLM，可将训练集 S 压缩为单个任务向量 θ(S)，并使用该任务向量来调节 Transformer 以产生输出。

Oct, 2023

位置信息对于不变上下文学习至关重要：简单函数类的案例研究

深入研究了在上下文学习中的限制和成功原则，并通过比较变压器和 DeepSet 架构以保持重要的离域学习不变性的区别，发现保持离域学习不变性对于成功的下一次时关键的。

Nov, 2023

训练的 Transformer 学习上下文中的线性模型

研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练，实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力，且在多种分布转换下具有鲁棒性。

Jun, 2023

转换器作为算法：上下文学习中的泛化和稳定性

本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用，提出了使用 transformer model 的方式，详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性，以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后，提出了数值评估，并验证了理论预测。

Jan, 2023

Transformer 模型能否在上下文中学习顺序功能类别？

我们的研究扩展了前文所提到的上下文学习在转换模型中的应用，通过探索转换模型是否能够从序列、非文本函数类数据分布中学习。我们引入了一种新颖的滑动窗口序列函数类，并使用了具有 GPT-2 架构的规模较小的转换模型进行实验。我们的分析表明，这些模型确实可以在训练非文本序列函数类时利用上下文学习。此外，我们通过随机的 y 标签序列实验发现，即使标签关联被混淆，转换模型仍保留一定的上下文学习能力。我们提供了证据表明，转换模型可以理解并推理出函数类中所编码的序列性，从而在我们提出的任务中有效学习。我们的结果还显示，性能随着标签的随机性增加而下降，尽管不及预期的程度，暗示了所学习的序列性对标签噪声具有潜在的鲁棒性。未来的研究可以探讨转换模型中的解释性头部和任务向量与上下文学习中的序列性之间的关系。我们的研究为进一步研究转换模型如何处理和感知序列数据奠定了基础。

Dec, 2023

线性注意力下上下文学习的渐近理论

Transformers 在无需显式先前训练的情况下，基于输入示例学习和执行任务的能力，也称为上下文学习（ICL），是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案，采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加，学习曲线具有双峰，且模型的行为在低和高任务多样性之间出现相变：在低多样性情况下，模型趋向于记忆训练任务，而在高多样性情况下，它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。

May, 2024

多层感知器学习上下文

在这项研究中，我们发现多层感知器（MLPs）和密切相关的 MLP-Mixer 模型可以像 Transformer 模型一样有效地进行上下文学习，并且在一些涉及关系推理的任务中，MLPs 表现更优，这一结果挑战了以往对简单连通模型的一些假设。

May, 2024