CodeXGLUE:面向代码理解和生成的机器学习基准数据集
本文介绍了 XGLUE 数据集,它是一个可用于训练大规模跨语言预训练模型和评估其在多样的跨语言任务中表现的新的基准数据集。与 GLUE 不同的是,XGLUE 提供了 11 种多样化的任务来覆盖自然语言理解和生成等问题,同时为每个任务提供了多种语言的标注数据。本文还扩展了最近的跨语言预训练模型 Unicoder,以涵盖自然语言理解和生成任务,并在 XGLUE 上作为强基线进行评估。此外,本文还评估了多语言 BERT、XLM 和 XLM-R 的基础版本(12 层)进行比较。
Apr, 2020
介绍 Legal General Language Understanding Evaluation(LexGLUE)基准测试和对几个通用和以法律为导向的模型的评估和分析,证明后者在多个任务中始终提供性能改进。
Oct, 2021
CodeApex 是一个双语基准数据集,专注于评估大型语言模型(LLMs)在编程理解和代码生成能力上。数据集由三种类型的多项选择题组成,用于评估 LLMs 在编程理解任务上的能力,同时利用算法问题和相应的测试用例来评估 LLMs 生成的代码质量。通过评估包括通用和专用模型在内的 14 个先进 LLMs,发现 GPT 展现出最佳的编程能力,在两个任务上分别达到了约 50% 和 56% 的准确率。希望 CodeApex 能够作为评估 LLMs 编码能力的参考,进一步推动其发展和增长。
Sep, 2023
使用大规模生成模型和较小的编码器模型,语言模型可以帮助软件开发人员提高生产力,包括代码生成、代码补全、代码搜索等任务,并且可以通过新的基准数据集 GenCodeSearchNet (GeCS) 来评估语言模型对编程语言理解的泛化能力。
Nov, 2023
为了实现一种泛用的自然语言理解技术,我们引入了 GLUE 基准测试,它是一种用于评估并分析现有 NLU 任务中模型性能的工具。该测试套件是模型无关的,提供手工诊断测试套件以进行详细的语言分析。我们评估了基于当前的多任务和迁移学习方法的基线,发现它们并没有立即在将单独的模型训练于每个任务上的总体表现上取得大幅度的改进,这表明在开发泛用且稳健的自然语言理解系统方面有改进的空间。
Apr, 2018
本文介绍了 GeoGLUE 基准评估,通过从开放资源中收集数据并引入六个自然语言理解任务来创建以地理文本为基础的基准测试,包括地理文本相似性、地理要素标记、地理组合分析、地理实体对齐等评估实验和分析基线的有效性和重要性。
May, 2023
本文提出了新的基准测试,包括 MBXP,Multilingual HumanEval 和 MathQA-X,以测试多语言环境下代码生成模型的性能,并发现了多语言模型的优势,以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时,作者还利用其代码生成模型在多种语言上实现了大规模引导过程,产生了其他与代码相关的评估任务中使用的合成规范解决方案。
Oct, 2022
本研究介绍了一个跨越 20 种语言的多模式多语言标准化测试集,用于评估多语言多模式的迁移学习效果,结果表明翻译测试优于零射击传递,只有很少的无标签文本数据可用于预训练,而且源语言和目标语言之间的距离对成绩的影响较小。
Jan, 2022
本篇论文介绍了新的多任务基准测试 ——GLGE,以综合比较自然语言生成模型在八个语言生成任务上的泛化性能,包括三个难度子任务,并公开数据集及源代码,以促进自然语言生成模型的预训练和迁移学习研究。
Nov, 2020
本文介绍了 DialoGLUE,一种公共基准,旨在鼓励对话研究的表示转移,领域自适应和样本有效任务学习。通过 DialoGLUE 基准,基线方法和评估脚本,我们希望促进发展更为通用的任务导向型对话模型。
Sep, 2020