面向上下文学习的何以及如何学习？贝叶斯模型平均、参数化和泛化

May, 2023

面向上下文学习的何以及如何学习？贝叶斯模型平均、参数化和泛化

What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization

Yufeng Zhang, Fengzhuo Zhang, Zhuoran Yang, Zhaoran Wang

TL;DR本文对 In-Context Learning (ICL) 的学习器类型、性能度量、误差率以及 Transformer 架构和 ICL 的关系进行了全面深入的研究，初步证明 ICL 隐含地实现了贝叶斯模型平均算法并受注意机制参数化，同时建立 ICL 遗憾、近似和泛化误差的界限，从而加深了我们对现代语言模型的关键方面的认识。

Abstract

In this paper, we conduct a comprehensive study of in-context learning (ICL) by addressing several open questions: (a) What type of ICL estimator is learned within language models? (b) What are suitable performan

in-context learning bayesian model averaging attention mechanism transformer architecture language models

发现论文，激发创造

转换器作为算法：上下文学习中的泛化和稳定性

本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用，提出了使用 transformer model 的方式，详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性，以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后，提出了数值评估，并验证了理论预测。

Jan, 2023

Transformers 作为统计学家：具有证明的上下文学习和上下文算法选择

本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论，阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法，基于上下文梯度下降机制的实现，以及不同算法之间的自适应选择。

Jun, 2023

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024

非线性变压器的高效上下文学习训练：理论学习和泛化分析

通过理论分析，我们首次探讨了具有非线性自注意力和非线性 MLP 的 Transformer 模型的训练动态和 ICL 泛化能力，重点关注一组二分类任务，研究了各种因素对 ICL 泛化性能的影响，探讨了不同组件对 ICL 性能的贡献，并首次理论分析了模型修剪对 ICL 性能的影响，证明合适的基于大小的修剪可以在降低推理成本的同时对 ICL 产生最小影响，并通过数值实验验证了这些理论结果。

Feb, 2024

上下文学习转模型权重的精确转换

在这篇论文中，我们展示了一个算法（ICLCA），通过在线性变换网络中加入偏置项，可以使得上下文学习（ICL）得以明确和持久化。我们在数学上证明了通过 ICL 演示提示的模型与具有额外偏置项的同一模型之间的等价性。我们的方法允许以低成本进行精确转换，而现有方法并不精确且需要昂贵的参数更新。我们通过实验展示了我们方法的有效性，展示了将 ICL 令牌精确地纳入线性变换器中。我们进一步提出了如何适应我们的方法，以实现 ICL 令牌的便宜近似转换，即使在非线性化的常规变换网络中也可以实现。我们在 GPT-2 上的实验表明，即使转换只是近似的，模型仍然从包含的偏置项中获得了有价值的上下文。

Jun, 2024

用于稀疏检索任务的样本高效上下文学习机制

本文研究了大型语言模型展示的 “上下文学习” 现象，并解释了预训练的 transformer 模型如何在合理的假设下执行上下文学习。我们推出了一种机制，使得 transformer 模型能够正确划分上下文，推断出稀疏线性回归假说，并应用此假说进行预测，在该学习框架中的样本复杂度保证。

May, 2023

基于核回归的大语言模型上下文学习解析

通过研究大型语言模型，本文提出 Large language models 可以在面对语境示例时模拟核回归算法，并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归，并通过实证研究发现，LLMs 中的注意力和隐藏特征与核回归的行为相匹配，这些为 ICL 领域中观察到的多种现象提供了见解。

May, 2023

从上下文不确定性量化中对上下文学习能力的更好理解

本文研究了 Transformer 在线性回归任务上的训练，考虑了条件期望和条件方差的双目标预测任务，提供了不确定性量化目标，并揭示了训练 Transformer 接近贝叶斯最优的理论性质，以及在处理任务转移时表现不同于贝叶斯推断的能力。

May, 2024

基于 Transformer 的上下文学习与对比学习模式等效

我们通过内在对比学习的角度解释了预训练大型语言模型的推理过程，分析了梯度下降和自注意机制之间的关系，并提出了对比学习模式的改进，以进一步修改自注意层。

Oct, 2023

训练的 Transformer 学习上下文中的线性模型

研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练，实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力，且在多种分布转换下具有鲁棒性。

Jun, 2023