神经 NLP 模型外分布评估的调查

Jun, 2023

A Survey on Out-of-Distribution Evaluation of Neural NLP Models

Xinzhe Li, Ming Liu, Shang Gao, Wray Buntine

TL;DR本综述论文比较了对神经自然语言处理模型的三种研究途径：对抗鲁棒性、领域泛化和数据集偏差，并总结了每条研究路径的数据生成过程和评估协议，并强调未来工作的挑战和机遇。

Abstract

adversarial robustness, domain generalization and dataset biases are three active lines of research contributing to out-of-distribution (O

adversarial robustness domain generalization dataset biases neural nlp models ood evaluation

发现论文，激发创造

文本分类中的外域泛化：过去、现在和未来

本篇研究论文探讨了自然语言处理中机器学习系统在处理超出标准数据集范畴的数据时的适用性，并在文本分类中研究了其可靠性及可能存在的偏差。此外，本文对该主题的最新进展、方法和评估进行了综述，并讨论了涉及的挑战和未来的研究方向。

May, 2023

关于外分布泛化评估的调研

机器学习模型在非独立同分布的数据分布下表现出可疑的风险，因此需要发展算法来评估和改善模型的泛化能力以及处理分布变化的能力。本文综述了现有的非独立同分布泛化评估的研究，将其划分为三个范式：非独立同分布性能测试、非独立同分布性能预测和非独立同分布内在特性表征，并简要讨论了预训练模型的非独立同分布评价。最后，提出了未来研究的几个有前景的方向。

Mar, 2024

自然语言处理中的超领域检测综述

本文回顾了最近关于 out-of-distribution 检测的进展，重点关注了自然语言处理方面的方法。通过分类和介绍数据集、应用和评估指标，总结了现有的研究，同时提出了未来的研究方向。

May, 2023

自然语言处理中的分布外鲁棒性再探：基准、分析和 LLMs 评估

本文重新审视了自然语言处理领域中关于评估 out-of-distribution 鲁棒性的相关研究，并提出了一个基准套件（BOSS），通过其中包含的 5 项任务和 20 个数据集来评估 pre-trained large language models 和 5 种经典方法在分布转移时的性能，结果发现在 ID 示例中，微调特定领域模型的性能明显优于 LLMs，在 OOD 示例中，优先考虑具有上下文学习的 LLMs 结果更好，但大规模的微调和大型 LLMs 都面临着有效解决下游任务的挑战。

Jun, 2023

离群数据：对抗样本的熟悉 —— 综述

深度神经网络在现实应用中会遇到来自分布失真和对抗性攻击的数据，本综述聚焦于这两个领域的交叉研究，探讨如何通过鲁棒的分布失真检测和统一的鲁棒性进行对抗性攻击和对分布失真数据的健壮处理。

Apr, 2024

文本分类任务中传统的外部分布检测方法的基准测试

本文着重介绍了现有方法在处理 NLP 中 OOD 检测时的局限性，对八种常见的 OOD 检测方法进行了评估并分析了其存在的问题，发现现有方法对于各类型分布偏移的检测敏感性不够，在领域内文本中存在令人困惑的测试场景，而需要开发更有效的 OOD 检测方法，本文为未来的研究提供了一个良好的、定义明确的基础。

Jul, 2023

面向外部分布泛化：一项调查

该研究论文系统而全面地讨论了 Out-of-Distribution generalization 问题，其中包括它的定义、方法论、评估以及对未来的启示和发展方向，以及包括无监督表示学习在内的现有方法。

Aug, 2021

图上的外域泛化：一份综述

我们综合调查了图形领域中的 ODD 概括率，并详细审查了最近在这个领域取得的进展，然后根据其在图形机器学习流水线中的位置，从数据、模型和学习策略等不同概念上将现有方法分为三类，并对每个类别进行了详细讨论，最后分享了我们对未来研究方向的看法。

Feb, 2022

GLUE-X: 从越界泛化角度评估自然语言理解模型

本文介绍了创建一个名为 GLUE-X 的统一基准的首次尝试，该基准用于评估自然语言处理模型中的 OOD 鲁棒性，在 13 个公开可用的 OOD 测试数据集上验收模型，发现模型在 OOD 任务上的性能明显下降，对提高模型鲁棒性提供了一些见解和改进方案。

Nov, 2022

异常、新颖性、开放集和分布外检测的统一调查：解决方案及未来挑战

本文综述了目前在机器学习中所涉及的异常检测、开放集识别、新颖性检测和习一类学习等不同领域中，如何识别和检测来自于训练集分布之外的样本，从而提出了跨领域的研究方向，这对提高模型的鲁棒性具有重要意义。

Oct, 2021