GLGE:一个新的通用的自然语言生成评估基准
为了实现一种泛用的自然语言理解技术,我们引入了 GLUE 基准测试,它是一种用于评估并分析现有 NLU 任务中模型性能的工具。该测试套件是模型无关的,提供手工诊断测试套件以进行详细的语言分析。我们评估了基于当前的多任务和迁移学习方法的基线,发现它们并没有立即在将单独的模型训练于每个任务上的总体表现上取得大幅度的改进,这表明在开发泛用且稳健的自然语言理解系统方面有改进的空间。
Apr, 2018
bgGLUE 是一种 Bulgarian 通用自然语言理解(NLU)评估基准,用于评估语言模型在保加利亚语 NLU 任务中的表现,旨在进一步发展 Bulgarian NLU 模型。
Jun, 2023
介绍 Legal General Language Understanding Evaluation(LexGLUE)基准测试和对几个通用和以法律为导向的模型的评估和分析,证明后者在多个任务中始终提供性能改进。
Oct, 2021
本文介绍了 XGLUE 数据集,它是一个可用于训练大规模跨语言预训练模型和评估其在多样的跨语言任务中表现的新的基准数据集。与 GLUE 不同的是,XGLUE 提供了 11 种多样化的任务来覆盖自然语言理解和生成等问题,同时为每个任务提供了多种语言的标注数据。本文还扩展了最近的跨语言预训练模型 Unicoder,以涵盖自然语言理解和生成任务,并在 XGLUE 上作为强基线进行评估。此外,本文还评估了多语言 BERT、XLM 和 XLM-R 的基础版本(12 层)进行比较。
Apr, 2020
本文介绍了 GeoGLUE 基准评估,通过从开放资源中收集数据并引入六个自然语言理解任务来创建以地理文本为基础的基准测试,包括地理文本相似性、地理要素标记、地理组合分析、地理实体对齐等评估实验和分析基线的有效性和重要性。
May, 2023
在这篇论文中,我们引入了 NLEBench,这是一个专门为评估挪威语等少资源语言的自然语言生成能力而设计的综合性基准测试,同时介绍了 NorGLMs,这是使用不同参数规模和基于 Transformer 的架构开发的基础挪威语生成语言模型。通过对提出的基准测试套件的系统评估,我们可以了解 NorGLMs 在各种下游任务中的能力和可扩展性。
Dec, 2023
本文介绍了一种先进的俄语语言理解评估基准 ——RussianGLUE,并提供了包括基线、人类评估、开源框架和总排行榜等丰富内容。我们还比较了多语言模型在适应性诊断测试集上的表现,并提出了进一步扩展或评估最先进模型的第一步。
Oct, 2020
本研究介绍了一个跨越 20 种语言的多模式多语言标准化测试集,用于评估多语言多模式的迁移学习效果,结果表明翻译测试优于零射击传递,只有很少的无标签文本数据可用于预训练,而且源语言和目标语言之间的距离对成绩的影响较小。
Jan, 2022
本文提出 Adversarial GLUE(AdvGLUE)—— 一个新的多任务基准,系统地将 14 种文本对抗攻击方法应用于 GLUE 任务,进一步通过人工验证实现可靠注释,揭示了现代大规模语言模型面对各种类型对抗攻击漏洞的严重性,呼吁对更具隐蔽性和语义保持性的新型对抗攻击和新型强鲁棒性语言模型的发展。
Nov, 2021
本文介绍了 DialoGLUE,一种公共基准,旨在鼓励对话研究的表示转移,领域自适应和样本有效任务学习。通过 DialoGLUE 基准,基线方法和评估脚本,我们希望促进发展更为通用的任务导向型对话模型。
Sep, 2020