GLGE：一个新的通用的自然语言生成评估基准

ACLNov, 2020

GLGE：一个新的通用的自然语言生成评估基准

GLGE: A New General Language Generation Evaluation Benchmark

Dayiheng Liu, Yu Yan, Yeyun Gong, Weizhen Qi, Hang Zhang...

TL;DR本篇论文介绍了新的多任务基准测试 ——GLGE，以综合比较自然语言生成模型在八个语言生成任务上的泛化性能，包括三个难度子任务，并公开数据集及源代码，以促进自然语言生成模型的预训练和迁移学习研究。

Abstract

Multi-task benchmarks such as GLUE and SuperGLUE have driven great progress of pretraining and transfer learning in Natural Language Processing (NLP). These benchmarks mostly focus on a range of Natural Language Understanding (NLU) tasks, without considering the →

multi-task benchmark natural language generation nlg models generalization capabilities transfer learning

发现论文，激发创造

GLUE：自然语言理解的多任务基准测试和分析平台

为了实现一种泛用的自然语言理解技术，我们引入了 GLUE 基准测试，它是一种用于评估并分析现有 NLU 任务中模型性能的工具。该测试套件是模型无关的，提供手工诊断测试套件以进行详细的语言分析。我们评估了基于当前的多任务和迁移学习方法的基线，发现它们并没有立即在将单独的模型训练于每个任务上的总体表现上取得大幅度的改进，这表明在开发泛用且稳健的自然语言理解系统方面有改进的空间。

Apr, 2018

bgGLUE：保加利亚常规语言理解评估基准

bgGLUE 是一种 Bulgarian 通用自然语言理解（NLU）评估基准，用于评估语言模型在保加利亚语 NLU 任务中的表现，旨在进一步发展 Bulgarian NLU 模型。

Jun, 2023

LexGLUE: 英文法律语言理解基准数据集

介绍 Legal General Language Understanding Evaluation（LexGLUE）基准测试和对几个通用和以法律为导向的模型的评估和分析，证明后者在多个任务中始终提供性能改进。

Oct, 2021

XGLUE：跨语言预训练、理解和生成的新基准数据集

本文介绍了 XGLUE 数据集，它是一个可用于训练大规模跨语言预训练模型和评估其在多样的跨语言任务中表现的新的基准数据集。与 GLUE 不同的是，XGLUE 提供了 11 种多样化的任务来覆盖自然语言理解和生成等问题，同时为每个任务提供了多种语言的标注数据。本文还扩展了最近的跨语言预训练模型 Unicoder，以涵盖自然语言理解和生成任务，并在 XGLUE 上作为强基线进行评估。此外，本文还评估了多语言 BERT、XLM 和 XLM-R 的基础版本（12 层）进行比较。

Apr, 2020

GeoGLUE：地理语言理解评估基准

本文介绍了 GeoGLUE 基准评估，通过从开放资源中收集数据并引入六个自然语言理解任务来创建以地理文本为基础的基准测试，包括地理文本相似性、地理要素标记、地理组合分析、地理实体对齐等评估实验和分析基线的有效性和重要性。

May, 2023

NLEBench+NorGLM：挪威语生成语言模型的全面实证分析和基准数据集

在这篇论文中，我们引入了 NLEBench，这是一个专门为评估挪威语等少资源语言的自然语言生成能力而设计的综合性基准测试，同时介绍了 NorGLMs，这是使用不同参数规模和基于 Transformer 的架构开发的基础挪威语生成语言模型。通过对提出的基准测试套件的系统评估，我们可以了解 NorGLMs 在各种下游任务中的能力和可扩展性。

Dec, 2023

RussianSuperGLUE: 俄语语言理解评测基准

本文介绍了一种先进的俄语语言理解评估基准 ——RussianGLUE，并提供了包括基线、人类评估、开源框架和总排行榜等丰富内容。我们还比较了多语言模型在适应性诊断测试集上的表现，并提出了进一步扩展或评估最先进模型的第一步。

Oct, 2020

IGLUE：跨模态、跨任务和跨语言的迁移学习基准

本研究介绍了一个跨越 20 种语言的多模式多语言标准化测试集，用于评估多语言多模式的迁移学习效果，结果表明翻译测试优于零射击传递，只有很少的无标签文本数据可用于预训练，而且源语言和目标语言之间的距离对成绩的影响较小。

Jan, 2022

对抗 GLUE：一个用于评估语言模型鲁棒性的多任务基准

本文提出 Adversarial GLUE（AdvGLUE）—— 一个新的多任务基准，系统地将 14 种文本对抗攻击方法应用于 GLUE 任务，进一步通过人工验证实现可靠注释，揭示了现代大规模语言模型面对各种类型对抗攻击漏洞的严重性，呼吁对更具隐蔽性和语义保持性的新型对抗攻击和新型强鲁棒性语言模型的发展。

Nov, 2021

DialoGLUE：面向任务导向对话的自然语言理解基准

本文介绍了 DialoGLUE，一种公共基准，旨在鼓励对话研究的表示转移，领域自适应和样本有效任务学习。通过 DialoGLUE 基准，基线方法和评估脚本，我们希望促进发展更为通用的任务导向型对话模型。

Sep, 2020