从上下文不确定性量化中对上下文学习能力的更好理解
本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论,阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法,基于上下文梯度下降机制的实现,以及不同算法之间的自适应选择。
Jun, 2023
本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用,提出了使用 transformer model 的方式,详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性,以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后,提出了数值评估,并验证了理论预测。
Jan, 2023
研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练,实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力,且在多种分布转换下具有鲁棒性。
Jun, 2023
Transformers 在无需显式先前训练的情况下,基于输入示例学习和执行任务的能力,也称为上下文学习(ICL),是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案,采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加,学习曲线具有双峰,且模型的行为在低和高任务多样性之间出现相变:在低多样性情况下,模型趋向于记忆训练任务,而在高多样性情况下,它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。
May, 2024
本文通过多种线性和非线性函数类的实证观察,延伸了之前的研究,表明了 transformers 的理想学习者表现,并探究了其在 Bayesian 模型和多任务环境下的应用,还以傅里叶级数为例研究了其归纳偏差。
Jun, 2023
本文对 In-Context Learning (ICL) 的学习器类型、性能度量、误差率以及 Transformer 架构和 ICL 的关系进行了全面深入的研究,初步证明 ICL 隐含地实现了贝叶斯模型平均算法并受注意机制参数化,同时建立 ICL 遗憾、近似和泛化误差的界限,从而加深了我们对现代语言模型的关键方面的认识。
May, 2023
深入研究了在上下文学习中的限制和成功原则,并通过比较变压器和 DeepSet 架构以保持重要的离域学习不变性的区别,发现保持离域学习不变性对于成功的下一次时关键的。
Nov, 2023
通过研究预训练数据集中任务多样性的不同,探究在不同任务多样性阈值下,在新的情境下可以有多大能力。结果表明,如果预训练的数据具有足够的多样性,那么可以在新任务中解决问题,但是这种能力依赖于违背 Bayes 最优估计并将 Gauss 先验分布中所有任务的能力。
Jun, 2023
大型语言模型在转换器架构的基础上展现了卓越的上下文学习能力,本研究旨在深入了解更复杂的情境中的上下文学习,并通过研究表示学习来探索其机制和性能。
Oct, 2023
对于大型自回归模型,如 Transformer,它们可以通过上下文学习 (即 ICL) 在不学习新权重的情况下解决任务,从而提供了高效解决新任务的方法。本文系统地研究了明确推断任务潜变量的效果,并发现与标准 Transformer 相比,在任务相关潜变量方面存在很少可辨别的差异,倾向于任务相关潜变量并不能普遍提高超出分布的性能;研究还发现,虽然瓶颈层可以有效地从上下文中提取潜在的任务变量,但下游处理很难利用它们进行稳健的预测。这项研究突显了 Transformer 在实现结构化的上下文学习解决方案方面的固有局限性,并表明虽然推断正确的潜变量有助于解释性,但对于解决这个问题来说并不足够。
May, 2024