基于 Transformer 的上下文学习与对比学习模式等效
研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练,实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力,且在多种分布转换下具有鲁棒性。
Jun, 2023
本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习,该方法利用 Transformer 注意力和梯度下降优化之间的双重形式,将上下文学习过程分为 'Thinking' 和推理阶段,通过递归前向优化演示来增强 LLLs 的推理能力,并且将得到的元梯度通过注意力应用于最终的输出预测中,从而有效地、高效地适应下游任务。
May, 2023
在实际的自然语言环境中,对比了 In-Context Learning (ICL) 和 Gradient Descent (GD) 在语言模型上的表现差异,发现二者在适应语言模型的输出分布上存在不一致的行为。
Oct, 2023
通过理论分析,我们首次探讨了具有非线性自注意力和非线性 MLP 的 Transformer 模型的训练动态和 ICL 泛化能力,重点关注一组二分类任务,研究了各种因素对 ICL 泛化性能的影响,探讨了不同组件对 ICL 性能的贡献,并首次理论分析了模型修剪对 ICL 性能的影响,证明合适的基于大小的修剪可以在降低推理成本的同时对 ICL 产生最小影响,并通过数值实验验证了这些理论结果。
Feb, 2024
在这项工作中,我们重新审视了 ICL 和基于梯度下降(GD)的微调之间的比较,并研究了等效过程必须遵循的 ICL 的性质。我们强调了 ICL 和标准微调之间信息流动的主要差异,即 ICL 只能在每个点上依靠较低层次的信息,而微调依赖于更深层次的损失梯度。我们将这种差异称为层因果性,并表明层因果性的微调过程与 ICL 相媲美,在大多数相关指标上甚至更好。据我们所知,这是第一项明确讨论这种差异并提出最小改变解决方案的工作。
Nov, 2023
通过研究大型语言模型,本文提出 Large language models 可以在面对语境示例时模拟核回归算法,并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归,并通过实证研究发现,LLMs 中的注意力和隐藏特征与核回归的行为相匹配,这些为 ICL 领域中观察到的多种现象提供了见解。
May, 2023
本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用,提出了使用 transformer model 的方式,详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性,以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后,提出了数值评估,并验证了理论预测。
Jan, 2023
在这篇论文中,我们展示了一个算法(ICLCA),通过在线性变换网络中加入偏置项,可以使得上下文学习(ICL)得以明确和持久化。我们在数学上证明了通过 ICL 演示提示的模型与具有额外偏置项的同一模型之间的等价性。我们的方法允许以低成本进行精确转换,而现有方法并不精确且需要昂贵的参数更新。我们通过实验展示了我们方法的有效性,展示了将 ICL 令牌精确地纳入线性变换器中。我们进一步提出了如何适应我们的方法,以实现 ICL 令牌的便宜近似转换,即使在非线性化的常规变换网络中也可以实现。我们在 GPT-2 上的实验表明,即使转换只是近似的,模型仍然从包含的偏置项中获得了有价值的上下文。
Jun, 2024
本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论,阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法,基于上下文梯度下降机制的实现,以及不同算法之间的自适应选择。
Jun, 2023
使用全面实验证明,In-context learning 通常具有非常简单的结构,即对应于仅有查询 x 和从训练集计算得到的单个 “任务向量” 的 Transformer LLM,可将训练集 S 压缩为单个任务向量 θ(S),并使用该任务向量来调节 Transformer 以产生输出。
Oct, 2023