探索带有嘈杂标签的上下文学习的稳健性
大型语言模型在文本生成任务中,噪声标注显著影响了上下文学习的性能,因此我们提出了一种名为本地困惑度排序(LPR)的简单有效方法,通过在语义空间中对邻居进行排序,以防止选择到不匹配的输入 - 标签对,同时保持原始选择方法的有效性。大量实验证明了 LPR 的有效性,将 EM 得分在带噪声注释的常见基准测试中提高了 18.75 个点。
May, 2024
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
本文研究了大型语言模型展示的 “上下文学习” 现象,并解释了预训练的 transformer 模型如何在合理的假设下执行上下文学习。我们推出了一种机制,使得 transformer 模型能够正确划分上下文,推断出稀疏线性回归假说,并应用此假说进行预测,在该学习框架中的样本复杂度保证。
May, 2023
探讨了大型语言模型在上下文学习中的能力,并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为,表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。
Jan, 2024
本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用,提出了使用 transformer model 的方式,详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性,以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后,提出了数值评估,并验证了理论预测。
Jan, 2023
本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论,阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法,基于上下文梯度下降机制的实现,以及不同算法之间的自适应选择。
Jun, 2023
本文研究了 Transformer 在线性回归任务上的训练,考虑了条件期望和条件方差的双目标预测任务,提供了不确定性量化目标,并揭示了训练 Transformer 接近贝叶斯最优的理论性质,以及在处理任务转移时表现不同于贝叶斯推断的能力。
May, 2024
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
transformer 神经网络虽然没有明确训练用于上下文学习,但其仍具备令人惊讶的上下文学习能力。然而,研究发现 ICL 在训练过程中常常是短暂的,且 ICL 和 in-weights learning 之间存在竞争关系,使用 L2 正则化可能提供更持久的 ICL。
Nov, 2023
通过理论分析,我们首次探讨了具有非线性自注意力和非线性 MLP 的 Transformer 模型的训练动态和 ICL 泛化能力,重点关注一组二分类任务,研究了各种因素对 ICL 泛化性能的影响,探讨了不同组件对 ICL 性能的贡献,并首次理论分析了模型修剪对 ICL 性能的影响,证明合适的基于大小的修剪可以在降低推理成本的同时对 ICL 产生最小影响,并通过数值实验验证了这些理论结果。
Feb, 2024