使用预训练语言模型研究对噪声相关性的鲁棒性

ACLJul, 2020

使用预训练语言模型研究对噪声相关性的鲁棒性

An Empirical Study on Robustness to Spurious Correlations using Pre-trained Language Models

Lifu Tu, Garima Lalwani, Spandana Gella, He He

TL;DR本文通过研究发现，预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时，预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下，我们提出使用多任务学习（MTL）来提高泛化能力。我们在自然语言推断和释义识别上的实验表明，MTL 可显着提高在具有挑战性的情况下的性能，而不会影响分布内性能。此外，我们表明，MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。

Abstract

Recent work has shown that pre-trained language models such as BERT improve robustness to spurious correlations in the dataset. Intrigued by these results, we find that the key to their success is →

pre-trained language models generalization multi-task learning natural language inference spurious correlations

发现论文，激发创造

通过正则化虚假相关性来改进多任务泛化能力

提出了多任务因果表示学习框架，通过解缠神经模块，学习每个任务的因果关系，从而解决多任务学习中非因果知识的问题，并在 Multi-MNIST、MovieLens、Taskonomy、CityScape 和 NYUv2 数据集上验证了其性能优于现有算法平均 5.5% 的效果。

May, 2022

大型语言模型中选择偏差引起的虚假相关性

本文探究了大型语言模型在数据选择偏见下如何学习原本条件独立的变量之间的统计依赖关系。为了验证这个效果，我们创建了一个遮掩性别任务，可以应用于 BERT 系列模型来揭示预测性别代词与一系列似乎与性别无关的变量（如日期和位置）之间的虚假相关性，我们展示了预训练（未经修改的）BERT 和 RoBERTa 大型模型的效果，最后，我们提供了一项在线演示，邀请读者进一步实验。

Jul, 2022

识别和缓解虚假关联，提高自然语言处理模型的鲁棒性

本研究提出了一种方法，利用解释性方法从文本中提取影响模型决策过程的标记，分析模型在多个语料库上的预测并进一步通过知识感知扰动来区分 ' 真正 ' 的标记和 ' 虚假 ' 标记，有效地识别出一组 ' 捷径 '，从而实现在多个应用中的更加鲁棒的模型。

Oct, 2021

估算和提高语言模型的强健性的方法

通过研究大型语言模型的泛化能力问题以及多种提高其分布韧性的方法，本文提出了未来改进大型语言模型鲁棒性的研究方向。

Jun, 2022

对抗性训练对语言模型的稳健性和泛化能力的影响

本文比较了几种对抗训练语言模型的不同方法，包括预训练数据增强，输入空间扰动和嵌入空间扰动，发现输入空间扰动或预训练数据增强可以提高鲁棒性，而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明，泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。

Nov, 2022

文本分类中误关联的理解和减缓

本文提出一种邻近分析框架，防止深度学习模型在训练集中利用虚假的相关性，通过 NFL 正则化方法来改进鲁棒性，并在两个文本分类任务中进行实验验证，达到了显著的效果提升。

May, 2023

研究预训练语言模型在跨领域数据集上，更接近通用人工智能的一步

本文研究了预训练语言模型在领域任务泛化能力方面的能力，发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色，优于从头开始训练模型，并指出预训练嵌入在输入层非常重要。

Jun, 2023

多模态模型微调中减少虚假相关性的影响

该论文提出了一种利用多模态模型中的不同模态来检测和明确区分有影响的类别中的虚假属性的方法，通过表达语言来体现虚假关系的多模态对比损失函数，在 CLIP 上实验结果表明，这种干预可以有效地提高模型的准确性。

Apr, 2023

通过数据混合消除预先训练模型中的虚假相关性

本研究介绍了一种简单有效的方法来消除预先训练的机器学习模型中存在的伪相关性，该方法通过数据混合平衡所有类别中的伪属性，并在多种视觉和 NLP 任务中获得了最先进的表现。

May, 2023

生成数据以缓解自然语言推理数据集中的伪相关性

本篇研究提出了一种生成去偏差数据集的方法，通过过滤掉对任务并无帮助的数据以提高自然语言处理模型的泛化能力，并在实验中证实了该方法可以显著提高模型在不同任务分布下的性能表现。

Mar, 2022