扰动样本揭示语言模型共享的不变性
探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法,通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。
Nov, 2023
提出一种使用不变量风险最小化 (invariant risk minimization) 范式,学习不变表示以实现跨多个环境更好的泛化的方法。实验证明它可以减少有结构的噪声、忽略特定的伪相关性并提高域外泛化性能。
Oct, 2021
通过一个明确的指标,我们提出了多种度量方法,并研究了哪些特定的排列方式使得大型 Transformer NLU 模型在自然语言推理任务中对随机词序具有一定程度的规律性。我们对此现象进行了综合实证评估,发现无论是基于 Transformer 还是基于 pre-Transformer RNN / ConvNet 结构的编码器,以及跨多种语言(英语和中文)都存在此问题,并提供相关数据和代码。
Dec, 2020
我们研究了在现实世界中输入文本可能有噪音或不同于 NLP 系统训练数据分布的情景,通过各种类型的字符级和单词级扰动方法来模拟这种情况,发现语言模型对输入扰动非常敏感,即使引入了很小的变化,其性能也会下降,需要进一步改进模型并对扰动输入进行评估以更加真实地了解 NLP 系统的鲁棒性。
Aug, 2021
本文从贝叶斯的角度出发,将大型语言模型视作主题模型,提出了一种从标注数据中选择最佳示范的算法,并在实际数据集中证明相对于随机选择基线,平均有 12.5% 的显著改进。研究表明,大型语言模型从示范中隐式地推断出潜在的概念变量。
Jan, 2023
本文研究自然语言处理模型的健壮性问题,尤其是同义词识别模型在面对修改后的场景下健壮性存在显著问题。通过引入新的共享词汇的修改方式,结合优化算法,进行了大量实验验证。最后,着重讲解了对抗训练方法对提升模型健壮性的帮助。
Sep, 2019
研究现代自然语言处理模型中对于不同的输入扰动如何表现更差,进而发现一个模型对于未知文本扰动的鲁棒性较低的原因是模型未很好地学习到如何识别这些扰动。
Oct, 2021
本文通过研究发现,预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时,预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下,我们提出使用多任务学习(MTL)来提高泛化能力。我们在自然语言推断和释义识别上的实验表明,MTL 可显着提高在具有挑战性的情况下的性能,而不会影响分布内性能。此外,我们表明,MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。
Jul, 2020
通过对大型语言模型(LLMs)进行系统的鲁棒性评估,本研究提供了关于 LLMs 对多样化和噪声输入的处理能力方面的进一步改进的见解。
Jun, 2024
大语言模型在应用到缺乏大量推理预算和大量领域内训练集的任务中具有多样性,但具有挑战性。本研究规范了这些约束,并区分了四个重要变量:预训练预算(用于在目标领域之前进行训练)、专业预算(用于在目标领域之后进行训练)、推理预算和领域内训练集的大小。在这些设置中,我们比较了机器学习文献中的不同方法。受到推理成本的限制,我们找到了比训练非常大的基础变压器模型更好的替代方案。特别是,我们发现超网络和专家混合模型对于大的预训练预算具有更好的困惑度,而在重要抽样数据集上训练的小型模型对于大的专业预算是有吸引力的。
Feb, 2024