探索带有嘈杂标签的上下文学习的稳健性

ICLRApr, 2024

探索带有嘈杂标签的上下文学习的稳健性

Exploring the Robustness of In-Context Learning with Noisy Labels

Chen Cheng, Xinzhi Yu, Haodong Wen, Jinsong Sun, Guanzhang Yue...

TL;DRTransformer 模型在 In-Context Learning 方面表现出对标签噪声的鲁棒性，噪声的引入可以提高其鲁棒性，为自然语言处理中的 Transformer 研究提供了重要的见解。

Abstract

Recently, the mysterious in-context learning (ICL) ability exhibited by transformer architectures, especially in large language models (LLMs), has sparked significant research interest. However, the resilience of

in-context learning transformer architectures noisy labels robustness natural language processing

发现论文，激发创造

关于文本生成中上下文学习的噪声鲁棒性

大型语言模型在文本生成任务中，噪声标注显著影响了上下文学习的性能，因此我们提出了一种名为本地困惑度排序（LPR）的简单有效方法，通过在语义空间中对邻居进行排序，以防止选择到不匹配的输入 - 标签对，同时保持原始选择方法的有效性。大量实验证明了 LPR 的有效性，将 EM 得分在带噪声注释的常见基准测试中提高了 18.75 个点。

May, 2024

探究上下文学习行为：与监督学习的比较

大型语言模型（LLMs）在上下文学习（ICL）方面展示了显着的能力，在没有明确预训练的情况下，仅通过少量的训练示例学习新任务。然而，尽管 LLMs 获得了成功，对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中，为了对 ICL 的学习行为有所了解，我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs，并研究它们在一系列分类任务中在标签扰动（即嘈杂标签和标签不平衡）下的表现。通过广泛的实验证明，我们首先发现黄金标签对下游上下文性能有显著影响，尤其是对于大型语言模型；然而，对于所有模型大小，不平衡标签对 ICL 的影响较小。其次，通过与 SL 进行比较，我们实证表明 ICL 对标签扰动的敏感性较低，并且随着模型大小的增加，ICL 逐渐获得与 SL 相当的性能。

Jul, 2023

用于稀疏检索任务的样本高效上下文学习机制

本文研究了大型语言模型展示的 “上下文学习” 现象，并解释了预训练的 transformer 模型如何在合理的假设下执行上下文学习。我们推出了一种机制，使得 transformer 模型能够正确划分上下文，推断出稀疏线性回归假说，并应用此假说进行预测，在该学习框架中的样本复杂度保证。

May, 2023

MT 中 LLM 的上下文学习能力的实证分析

探讨了大型语言模型在上下文学习中的能力，并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为，表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。

Jan, 2024

转换器作为算法：上下文学习中的泛化和稳定性

本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用，提出了使用 transformer model 的方式，详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性，以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后，提出了数值评估，并验证了理论预测。

Jan, 2023

Transformers 作为统计学家：具有证明的上下文学习和上下文算法选择

本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论，阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法，基于上下文梯度下降机制的实现，以及不同算法之间的自适应选择。

Jun, 2023

从上下文不确定性量化中对上下文学习能力的更好理解

本文研究了 Transformer 在线性回归任务上的训练，考虑了条件期望和条件方差的双目标预测任务，提供了不确定性量化目标，并揭示了训练 Transformer 接近贝叶斯最优的理论性质，以及在处理任务转移时表现不同于贝叶斯推断的能力。

May, 2024

多标签文本分类的上下文学习

利用预训练的密集检索模型，我们在有限样本设置中的常见意图分类数据集上，以及特定情况下的细粒度情感分类中，优于微调性能。通过多个实验，我们分析了模型对于上下文示例和不同模型规模的利用情况，并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。

Sep, 2023

变压器中新出现的情境学习的瞬时性质

transformer 神经网络虽然没有明确训练用于上下文学习，但其仍具备令人惊讶的上下文学习能力。然而，研究发现 ICL 在训练过程中常常是短暂的，且 ICL 和 in-weights learning 之间存在竞争关系，使用 L2 正则化可能提供更持久的 ICL。

Nov, 2023

非线性变压器的高效上下文学习训练：理论学习和泛化分析

通过理论分析，我们首次探讨了具有非线性自注意力和非线性 MLP 的 Transformer 模型的训练动态和 ICL 泛化能力，重点关注一组二分类任务，研究了各种因素对 ICL 泛化性能的影响，探讨了不同组件对 ICL 性能的贡献，并首次理论分析了模型修剪对 ICL 性能的影响，证明合适的基于大小的修剪可以在降低推理成本的同时对 ICL 产生最小影响，并通过数值实验验证了这些理论结果。

Feb, 2024