自然语言处理中的分布外鲁棒性再探：基准、分析和 LLMs 评估

Jun, 2023

自然语言处理中的分布外鲁棒性再探：基准、分析和 LLMs 评估

Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations

Lifan Yuan, Yangyi Chen, Ganqu Cui, Hongcheng Gao, Fangyuan Zou...

TL;DR本文重新审视了自然语言处理领域中关于评估 out-of-distribution 鲁棒性的相关研究，并提出了一个基准套件（BOSS），通过其中包含的 5 项任务和 20 个数据集来评估 pre-trained large language models 和 5 种经典方法在分布转移时的性能，结果发现在 ID 示例中，微调特定领域模型的性能明显优于 LLMs，在 OOD 示例中，优先考虑具有上下文学习的 LLMs 结果更好，但大规模的微调和大型 LLMs 都面临着有效解决下游任务的挑战。

Abstract

This paper reexamines the research on out-of-distribution (OOD) robustness in the field of NLP. We find that the distribution shift settings in previous studies commonly lack adequate challenges, hindering the accurate evaluation of OOD robustness. To address these issues, we propose a

out-of-distribution robustness distribution shift benchmark pre-trained language models in-context learning

发现论文，激发创造

OODRobustBench：基于分布偏移的对抗鲁棒性评估与分析

现有研究在提高对抗鲁棒性方面取得了很大进展，但通常只在与训练数据相同分布的数据上进行测试，即内分布（ID）测试。然而，如何在输入分布转移（即出分布（OOD）测试）下实现这种鲁棒性的泛化仍不清楚。因此，我们提出了一个名为 OODRobustBench 的基准来全面评估 OOD 对抗鲁棒性，使用 23 种数据集级的转移（即输入分布中的自然转移）和 6 种威胁级的转移（即未知的对抗威胁模型）。OODRobustBench 用于评估 706 个稳健模型，使用 60.7K 个对抗性评估。这个大规模分析显示：1）对抗鲁棒性在 OOD 泛化问题上存在严重问题；2）ID 鲁棒性与 OOD 鲁棒性在许多分布转移下呈正线性相关，这使得可以从 ID 鲁棒性预测 OOD 鲁棒性。基于这一点，我们能够预测现有强化训练方案的 OOD 鲁棒性的上限。研究结果表明，实现 OOD 鲁棒性需要设计超出传统方法的新方法。最后，我们发现额外数据、数据增强、先进的模型架构和特定的正则化方法可以提高 OOD 鲁棒性。值得注意的是，与基准相比，发现的训练方案在威胁转移下表现出明显更高的鲁棒性，同时保持高的 ID 鲁棒性，为多攻击和未知攻击的鲁棒性提供新的有希望的解决方案。

Oct, 2023

文本分类任务中传统的外部分布检测方法的基准测试

本文着重介绍了现有方法在处理 NLP 中 OOD 检测时的局限性，对八种常见的 OOD 检测方法进行了评估并分析了其存在的问题，发现现有方法对于各类型分布偏移的检测敏感性不够，在领域内文本中存在令人困惑的测试场景，而需要开发更有效的 OOD 检测方法，本文为未来的研究提供了一个良好的、定义明确的基础。

Jul, 2023

神经 NLP 模型外分布评估的调查

本综述论文比较了对神经自然语言处理模型的三种研究途径：对抗鲁棒性、领域泛化和数据集偏差，并总结了每条研究路径的数据生成过程和评估协议，并强调未来工作的挑战和机遇。

Jun, 2023

大型语言模型的超出分布检测能力如何？

通过对大型语言模型进行实证研究，本文发现余弦距离的异常检测器表现出卓越的效力，优于其他异常检测器，并通过强调大型语言模型嵌入空间的各向同性特征，提供了对这一现象的有趣解释，进一步增强了我们对大型语言模型在检测异常数据方面的适应性和可靠性。

Aug, 2023

预训练转换器提高超出分布鲁棒性

本文通过构建具有现实分布变化的新的鲁棒性基准，系统地测量了七个 NLP 数据集的预训练 Transformers 的 OOD 泛化能力。研究结果表明，Pretrained Transformers 的性能下降显著较小，在检测异常或 OOD 示例方面更加有效，同时发现更多样化的预训练数据可以增强模型的鲁棒性。

Apr, 2020

在不同程度的分布偏移下，鲁棒性可能比我们认为的更脆弱

我们的研究探讨了分布偏移程度的更加微妙的评估设置，我们发现模型的稳健性在不同程度的分布偏移下可能相当脆弱和不一致，因此在从有限范围下的评估中得出结论时应更加谨慎。此外，我们观察到大规模预训练模型（如 CLIP）对于新颖下游任务的微小分布偏移也很敏感。这表明，尽管预训练表示可以帮助提高内分布性能，但在某些 OOD 场景中可能对泛化性能产生最小甚至负面影响，如果不正确使用。鉴于这些发现，我们鼓励未来的研究在可能的情况下进行更广泛范围的评估。

Oct, 2023

主题、领域和语言变化的桥梁：综合离域场景的评估

在真实世界中，语言模型在超出分布范围的场景中的泛化能力变得更低，基于提示的微调方法在语义差异较大的任务中表现更好，而基于梯度的学习存在结构障碍的偏差问题。

Sep, 2023

关于外分布泛化评估的调研

机器学习模型在非独立同分布的数据分布下表现出可疑的风险，因此需要发展算法来评估和改善模型的泛化能力以及处理分布变化的能力。本文综述了现有的非独立同分布泛化评估的研究，将其划分为三个范式：非独立同分布性能测试、非独立同分布性能预测和非独立同分布内在特性表征，并简要讨论了预训练模型的非独立同分布评价。最后，提出了未来研究的几个有前景的方向。

Mar, 2024

分布鲁棒模型的元分析

通过 meta-analysis，我们发现具有良好 OOD 鲁棒性的最佳表现的模型都具有四个共同点，即视觉 - 语言预训练具有巨大的潜力。

Jun, 2022

自然语言处理中的超领域检测综述

本文回顾了最近关于 out-of-distribution 检测的进展，重点关注了自然语言处理方面的方法。通过分类和介绍数据集、应用和评估指标，总结了现有的研究，同时提出了未来的研究方向。

May, 2023