GLUE-X: 从越界泛化角度评估自然语言理解模型

Nov, 2022

GLUE-X: 从越界泛化角度评估自然语言理解模型

GLUE-X: Evaluating Natural Language Understanding Models from an Out-of-distribution Generalization Perspective

Linyi Yang, Shuibai Zhang, Libo Qin, Yafu Li, Yidong Wang...

TL;DR本文介绍了创建一个名为 GLUE-X 的统一基准的首次尝试，该基准用于评估自然语言处理模型中的 OOD 鲁棒性，在 13 个公开可用的 OOD 测试数据集上验收模型，发现模型在 OOD 任务上的性能明显下降，对提高模型鲁棒性提供了一些见解和改进方案。

Abstract

pre-trained language models (PLMs) are known to improve the generalization performance of natural language understanding models by leveraging large amounts of data during the pre-training phase. However, the out-of-dist

pre-trained language models generalization performance out-of-distribution nlp tasks ood robustness

发现论文，激发创造

文本分类中的外域泛化：过去、现在和未来

本篇研究论文探讨了自然语言处理中机器学习系统在处理超出标准数据集范畴的数据时的适用性，并在文本分类中研究了其可靠性及可能存在的偏差。此外，本文对该主题的最新进展、方法和评估进行了综述，并讨论了涉及的挑战和未来的研究方向。

May, 2023

神经 NLP 模型外分布评估的调查

本综述论文比较了对神经自然语言处理模型的三种研究途径：对抗鲁棒性、领域泛化和数据集偏差，并总结了每条研究路径的数据生成过程和评估协议，并强调未来工作的挑战和机遇。

Jun, 2023

自然语言处理中的分布外鲁棒性再探：基准、分析和 LLMs 评估

本文重新审视了自然语言处理领域中关于评估 out-of-distribution 鲁棒性的相关研究，并提出了一个基准套件（BOSS），通过其中包含的 5 项任务和 20 个数据集来评估 pre-trained large language models 和 5 种经典方法在分布转移时的性能，结果发现在 ID 示例中，微调特定领域模型的性能明显优于 LLMs，在 OOD 示例中，优先考虑具有上下文学习的 LLMs 结果更好，但大规模的微调和大型 LLMs 都面临着有效解决下游任务的挑战。

Jun, 2023

主题、领域和语言变化的桥梁：综合离域场景的评估

在真实世界中，语言模型在超出分布范围的场景中的泛化能力变得更低，基于提示的微调方法在语义差异较大的任务中表现更好，而基于梯度的学习存在结构障碍的偏差问题。

Sep, 2023

提高预训练语言模型的泛化能力

预训练语言模型 (PLMs) 的可重用性常受到其泛化问题的限制，该问题表现为在评估与训练数据集不同的示例时，性能显著下降，被称为离群 / 未知示例。本文提出了一种名为 Mask-tuning 的训练方法，通过将掩码语言建模 (MLM) 训练目标整合到微调过程中，提高了 PLMs 的泛化能力。全面的实验证明，Mask-tuning 超越了当前最先进的技术，并增强了 PLMs 在离群数据集上的泛化能力，同时提高了它们在分布数据集上的性能。研究结果表明，Mask-tuning 改善了 PLMs 在未知数据上的可重用性，使其在实际应用中更加实用和有效。

Jul, 2023

自然语言理解中模型蒸馏和剪枝的稳健性挑战

本研究分析了两种流行的模型压缩技术对于预训练语言模型鲁棒性和泛化能力的影响，并且在样本不确定性的基础上提出了一种偏见缓解框架，用于提高模型的泛化能力。

Oct, 2021

使用参数高效迁移学习探索语言模型的越界鲁棒性

本研究系统地探讨了在预训练语言模型（Pre-trained Language Models）规模扩大或转移方法改变时，检测样本分布变化的能力如何随之改变，着重评估了各种 PETL 技术在三个不同意图分类任务上的效果。

Jan, 2023

关于外分布泛化评估的调研

机器学习模型在非独立同分布的数据分布下表现出可疑的风险，因此需要发展算法来评估和改善模型的泛化能力以及处理分布变化的能力。本文综述了现有的非独立同分布泛化评估的研究，将其划分为三个范式：非独立同分布性能测试、非独立同分布性能预测和非独立同分布内在特性表征，并简要讨论了预训练模型的非独立同分布评价。最后，提出了未来研究的几个有前景的方向。

Mar, 2024

GLUE：自然语言理解的多任务基准测试和分析平台

为了实现一种泛用的自然语言理解技术，我们引入了 GLUE 基准测试，它是一种用于评估并分析现有 NLU 任务中模型性能的工具。该测试套件是模型无关的，提供手工诊断测试套件以进行详细的语言分析。我们评估了基于当前的多任务和迁移学习方法的基线，发现它们并没有立即在将单独的模型训练于每个任务上的总体表现上取得大幅度的改进，这表明在开发泛用且稳健的自然语言理解系统方面有改进的空间。

Apr, 2018

再三思考：衡量消除问答模型预测快捷方式的效率

本文提出一种简单的方法，用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性，发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释，我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征，这表明 QA 数据集中存在共享的偏见，同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。

May, 2023