XGLUE：跨语言预训练、理解和生成的新基准数据集

Apr, 2020

XGLUE：跨语言预训练、理解和生成的新基准数据集

XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation

Yaobo Liang, Nan Duan, Yeyun Gong, Ning Wu, Fenfei Guo...

TL;DR本文介绍了 XGLUE 数据集，它是一个可用于训练大规模跨语言预训练模型和评估其在多样的跨语言任务中表现的新的基准数据集。与 GLUE 不同的是，XGLUE 提供了 11 种多样化的任务来覆盖自然语言理解和生成等问题，同时为每个任务提供了多种语言的标注数据。本文还扩展了最近的跨语言预训练模型 Unicoder，以涵盖自然语言理解和生成任务，并在 XGLUE 上作为强基线进行评估。此外，本文还评估了多语言 BERT、XLM 和 XLM-R 的基础版本（12 层）进行比较。

Abstract

In this paper, we introduce xglue, a new benchmark dataset that can be used to train large-scale cross-lingual pre-trained models using mu

xglue benchmark dataset cross-lingual pre-trained models multilingual and bilingual corpora natural language understanding and generation tasks

发现论文，激发创造

CodeXGLUE：面向代码理解和生成的机器学习基准数据集

介绍了 CodeXGLUE 的数据集和模型评价平台，包括 10 个任务和三种基准系统，旨在促进机器学习在程序理解和生成方面的研究和开发。

Feb, 2021

IGLUE：跨模态、跨任务和跨语言的迁移学习基准

本研究介绍了一个跨越 20 种语言的多模式多语言标准化测试集，用于评估多语言多模式的迁移学习效果，结果表明翻译测试优于零射击传递，只有很少的无标签文本数据可用于预训练，而且源语言和目标语言之间的距离对成绩的影响较小。

Jan, 2022

LexGLUE: 英文法律语言理解基准数据集

介绍 Legal General Language Understanding Evaluation（LexGLUE）基准测试和对几个通用和以法律为导向的模型的评估和分析，证明后者在多个任务中始终提供性能改进。

Oct, 2021

GLUE：自然语言理解的多任务基准测试和分析平台

为了实现一种泛用的自然语言理解技术，我们引入了 GLUE 基准测试，它是一种用于评估并分析现有 NLU 任务中模型性能的工具。该测试套件是模型无关的，提供手工诊断测试套件以进行详细的语言分析。我们评估了基于当前的多任务和迁移学习方法的基线，发现它们并没有立即在将单独的模型训练于每个任务上的总体表现上取得大幅度的改进，这表明在开发泛用且稳健的自然语言理解系统方面有改进的空间。

Apr, 2018

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

GLGE：一个新的通用的自然语言生成评估基准

本篇论文介绍了新的多任务基准测试 ——GLGE，以综合比较自然语言生成模型在八个语言生成任务上的泛化性能，包括三个难度子任务，并公开数据集及源代码，以促进自然语言生成模型的预训练和迁移学习研究。

Nov, 2020

RussianSuperGLUE: 俄语语言理解评测基准

本文介绍了一种先进的俄语语言理解评估基准 ——RussianGLUE，并提供了包括基线、人类评估、开源框架和总排行榜等丰富内容。我们还比较了多语言模型在适应性诊断测试集上的表现，并提出了进一步扩展或评估最先进模型的第一步。

Oct, 2020

DialoGLUE：面向任务导向对话的自然语言理解基准

本文介绍了 DialoGLUE，一种公共基准，旨在鼓励对话研究的表示转移，领域自适应和样本有效任务学习。通过 DialoGLUE 基准，基线方法和评估脚本，我们希望促进发展更为通用的任务导向型对话模型。

Sep, 2020

Unicoder：通过多语种交叉训练预训练的通用语言编码器

Unicoder 是一种机器学习算法，可对自然语言进行编码，进而实现输出不同语言的任务。该方法提出了三种新的跨语言预训练任务，包括跨语言词汇恢复、跨语言近义词分类和跨语言掩码语言模型。作者还发现在多种语言上进行微调可以进一步提高性能。作者在两个任务上进行了实验，包括跨语言自然语言推断和跨语言问答，并且在新的跨语言问答数据集上实现了 5.5％的精确度提高。

Sep, 2019

bgGLUE：保加利亚常规语言理解评估基准

bgGLUE 是一种 Bulgarian 通用自然语言理解（NLU）评估基准，用于评估语言模型在保加利亚语 NLU 任务中的表现，旨在进一步发展 Bulgarian NLU 模型。

Jun, 2023