bgGLUE:保加利亚常规语言理解评估基准
为了实现一种泛用的自然语言理解技术,我们引入了 GLUE 基准测试,它是一种用于评估并分析现有 NLU 任务中模型性能的工具。该测试套件是模型无关的,提供手工诊断测试套件以进行详细的语言分析。我们评估了基于当前的多任务和迁移学习方法的基线,发现它们并没有立即在将单独的模型训练于每个任务上的总体表现上取得大幅度的改进,这表明在开发泛用且稳健的自然语言理解系统方面有改进的空间。
Apr, 2018
本文介绍了一种先进的俄语语言理解评估基准 ——RussianGLUE,并提供了包括基线、人类评估、开源框架和总排行榜等丰富内容。我们还比较了多语言模型在适应性诊断测试集上的表现,并提出了进一步扩展或评估最先进模型的第一步。
Oct, 2020
介绍 Legal General Language Understanding Evaluation(LexGLUE)基准测试和对几个通用和以法律为导向的模型的评估和分析,证明后者在多个任务中始终提供性能改进。
Oct, 2021
本文介绍了 GeoGLUE 基准评估,通过从开放资源中收集数据并引入六个自然语言理解任务来创建以地理文本为基础的基准测试,包括地理文本相似性、地理要素标记、地理组合分析、地理实体对齐等评估实验和分析基线的有效性和重要性。
May, 2023
本篇论文介绍了新的多任务基准测试 ——GLGE,以综合比较自然语言生成模型在八个语言生成任务上的泛化性能,包括三个难度子任务,并公开数据集及源代码,以促进自然语言生成模型的预训练和迁移学习研究。
Nov, 2020
本文介绍了 DialoGLUE,一种公共基准,旨在鼓励对话研究的表示转移,领域自适应和样本有效任务学习。通过 DialoGLUE 基准,基线方法和评估脚本,我们希望促进发展更为通用的任务导向型对话模型。
Sep, 2020
本研究介绍了一个跨越 20 种语言的多模式多语言标准化测试集,用于评估多语言多模式的迁移学习效果,结果表明翻译测试优于零射击传递,只有很少的无标签文本数据可用于预训练,而且源语言和目标语言之间的距离对成绩的影响较小。
Jan, 2022
本文介绍了新的预训练和迁移学习模型和方法在语言理解任务中取得显着性能提升,提出了一个新的基准测试 SuperGLUE,在 GLUE 基准测试的基础上增加难度更大的语言理解任务、一个软件工具包和公开排行榜,可在 super.gluebenchmark.com 上获取。
May, 2019
该论文介绍了第一个大规模的中文语言理解评估基准,名为 CLUE,以帮助解决英语特定的自然语言理解模型难以用于其他语言的问题,并使用 9 个最先进的中文预训练模型来报告结果,并引入了一系列辅助数据集和工具以促进中文自然语言理解技术的进一步发展。
Apr, 2020
本文介绍了 XGLUE 数据集,它是一个可用于训练大规模跨语言预训练模型和评估其在多样的跨语言任务中表现的新的基准数据集。与 GLUE 不同的是,XGLUE 提供了 11 种多样化的任务来覆盖自然语言理解和生成等问题,同时为每个任务提供了多种语言的标注数据。本文还扩展了最近的跨语言预训练模型 Unicoder,以涵盖自然语言理解和生成任务,并在 XGLUE 上作为强基线进行评估。此外,本文还评估了多语言 BERT、XLM 和 XLM-R 的基础版本(12 层)进行比较。
Apr, 2020