对抗 GLUE：一个用于评估语言模型鲁棒性的多任务基准

Nov, 2021

对抗 GLUE：一个用于评估语言模型鲁棒性的多任务基准

Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models

Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng...

TL;DR本文提出 Adversarial GLUE（AdvGLUE）—— 一个新的多任务基准，系统地将 14 种文本对抗攻击方法应用于 GLUE 任务，进一步通过人工验证实现可靠注释，揭示了现代大规模语言模型面对各种类型对抗攻击漏洞的严重性，呼吁对更具隐蔽性和语义保持性的新型对抗攻击和新型强鲁棒性语言模型的发展。

Abstract

Large-scale pre-trained language models have achieved tremendous success across a wide range of natural language understanding (NLU) tasks, even surpassing human performance. However, recent studies reveal that the robustness of these models can be challenged by carefully crafted textu

pre-trained language models adversarial attacks benchmark model robustness semantic-preserving

发现论文，激发创造

GLUE：自然语言理解的多任务基准测试和分析平台

为了实现一种泛用的自然语言理解技术，我们引入了 GLUE 基准测试，它是一种用于评估并分析现有 NLU 任务中模型性能的工具。该测试套件是模型无关的，提供手工诊断测试套件以进行详细的语言分析。我们评估了基于当前的多任务和迁移学习方法的基线，发现它们并没有立即在将单独的模型训练于每个任务上的总体表现上取得大幅度的改进，这表明在开发泛用且稳健的自然语言理解系统方面有改进的空间。

Apr, 2018

DialoGLUE：面向任务导向对话的自然语言理解基准

本文介绍了 DialoGLUE，一种公共基准，旨在鼓励对话研究的表示转移，领域自适应和样本有效任务学习。通过 DialoGLUE 基准，基线方法和评估脚本，我们希望促进发展更为通用的任务导向型对话模型。

Sep, 2020

ASR-GLUE：一个新的 ASR-Robust 自然语言理解多任务基准

为了评估 ASR 误差下 NLU 系统的性能，本研究提出了 ASR-GLUE benchmark，包括 6 个不同的 NLU 任务，以及声音特点和噪声等级的变化。研究结果表明，基于数据增强和纠错的方法可以在一定程度上提高 NLU 系统的鲁棒性，但仍需要进一步研究。

Aug, 2021

RussianSuperGLUE: 俄语语言理解评测基准

本文介绍了一种先进的俄语语言理解评估基准 ——RussianGLUE，并提供了包括基线、人类评估、开源框架和总排行榜等丰富内容。我们还比较了多语言模型在适应性诊断测试集上的表现，并提出了进一步扩展或评估最先进模型的第一步。

Oct, 2020

LexGLUE: 英文法律语言理解基准数据集

介绍 Legal General Language Understanding Evaluation（LexGLUE）基准测试和对几个通用和以法律为导向的模型的评估和分析，证明后者在多个任务中始终提供性能改进。

Oct, 2021

有效语言模型预训练和下游适应的技巧：以 GLUE 为例的案例研究

本文介绍了我们团队关于使用 Transformer 结合多种训练策略进行自监督预训练和微调，并在 GLUE 评测中取得了 4 项任务上的最优性能，其中 SST-2 和 WNLI 两项任务满足超越人类表现的要求。

Feb, 2023

对抗性自然语言推理：自然语言理解新基准

介绍了一个通过迭代对抗人与模型的程序收集的大规模 NLI 基准数据集，并展示了训练模型在这个新数据集上将导致在各种流行的 NLI 基准测试中的最新性能，同时还带来了更困难的挑战。数据收集方法可以在永不停止的学习场景中应用，成为 NLU 的移动目标，而不是一个很快就会饱和的静态基准测试集。

Oct, 2019

XGLUE：跨语言预训练、理解和生成的新基准数据集

本文介绍了 XGLUE 数据集，它是一个可用于训练大规模跨语言预训练模型和评估其在多样的跨语言任务中表现的新的基准数据集。与 GLUE 不同的是，XGLUE 提供了 11 种多样化的任务来覆盖自然语言理解和生成等问题，同时为每个任务提供了多种语言的标注数据。本文还扩展了最近的跨语言预训练模型 Unicoder，以涵盖自然语言理解和生成任务，并在 XGLUE 上作为强基线进行评估。此外，本文还评估了多语言 BERT、XLM 和 XLM-R 的基础版本（12 层）进行比较。

Apr, 2020

GLGE：一个新的通用的自然语言生成评估基准

本篇论文介绍了新的多任务基准测试 ——GLGE，以综合比较自然语言生成模型在八个语言生成任务上的泛化性能，包括三个难度子任务，并公开数据集及源代码，以促进自然语言生成模型的预训练和迁移学习研究。

Nov, 2020

揭示 NLG 评估器的致命弱点：由大型语言模型驱动的统一对抗框架

通过引入黑盒对抗性评估框架 AdvEval，利用强大的语言模型作为数据生成器和金标评估器，自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性，实现了对自然语言生成系统进行鲁棒性评估的研究。在 12 个受害评估器和 11 个自然语言生成数据集上的实验证明了 AdvEval 的有效性。

May, 2024