线性变换器块中上下文学习的好处:MLP 组件和一步梯度下降初始化
研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练,实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力,且在多种分布转换下具有鲁棒性。
Jun, 2023
在这项研究中,我们发现多层感知器(MLPs)和密切相关的 MLP-Mixer 模型可以像 Transformer 模型一样有效地进行上下文学习,并且在一些涉及关系推理的任务中,MLPs 表现更优,这一结果挑战了以往对简单连通模型的一些假设。
May, 2024
本文对 In-Context Learning (ICL) 的学习器类型、性能度量、误差率以及 Transformer 架构和 ICL 的关系进行了全面深入的研究,初步证明 ICL 隐含地实现了贝叶斯模型平均算法并受注意机制参数化,同时建立 ICL 遗憾、近似和泛化误差的界限,从而加深了我们对现代语言模型的关键方面的认识。
May, 2023
在这篇论文中,我们展示了一个算法(ICLCA),通过在线性变换网络中加入偏置项,可以使得上下文学习(ICL)得以明确和持久化。我们在数学上证明了通过 ICL 演示提示的模型与具有额外偏置项的同一模型之间的等价性。我们的方法允许以低成本进行精确转换,而现有方法并不精确且需要昂贵的参数更新。我们通过实验展示了我们方法的有效性,展示了将 ICL 令牌精确地纳入线性变换器中。我们进一步提出了如何适应我们的方法,以实现 ICL 令牌的便宜近似转换,即使在非线性化的常规变换网络中也可以实现。我们在 GPT-2 上的实验表明,即使转换只是近似的,模型仍然从包含的偏置项中获得了有价值的上下文。
Jun, 2024
通过理论分析,我们首次探讨了具有非线性自注意力和非线性 MLP 的 Transformer 模型的训练动态和 ICL 泛化能力,重点关注一组二分类任务,研究了各种因素对 ICL 泛化性能的影响,探讨了不同组件对 ICL 性能的贡献,并首次理论分析了模型修剪对 ICL 性能的影响,证明合适的基于大小的修剪可以在降低推理成本的同时对 ICL 产生最小影响,并通过数值实验验证了这些理论结果。
Feb, 2024
本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用,提出了使用 transformer model 的方式,详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性,以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后,提出了数值评估,并验证了理论预测。
Jan, 2023
Transformers 使用高阶优化方法(如迭代牛顿法)实现了上下文学习(即从示例中学习而无需参数更新),并且与梯度下降相比具有相当的收敛速度,同时在条件良好和条件差的数据上都能成功进行上下文学习。
Oct, 2023
本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论,阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法,基于上下文梯度下降机制的实现,以及不同算法之间的自适应选择。
Jun, 2023
本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习,该方法利用 Transformer 注意力和梯度下降优化之间的双重形式,将上下文学习过程分为 'Thinking' 和推理阶段,通过递归前向优化演示来增强 LLLs 的推理能力,并且将得到的元梯度通过注意力应用于最终的输出预测中,从而有效地、高效地适应下游任务。
May, 2023
在实际的自然语言环境中,对比了 In-Context Learning (ICL) 和 Gradient Descent (GD) 在语言模型上的表现差异,发现二者在适应语言模型的输出分布上存在不一致的行为。
Oct, 2023