NorBench -- 挪威语言模型基准测试
在这篇论文中,我们引入了 NLEBench,这是一个专门为评估挪威语等少资源语言的自然语言生成能力而设计的综合性基准测试,同时介绍了 NorGLMs,这是使用不同参数规模和基于 Transformer 的架构开发的基础挪威语生成语言模型。通过对提出的基准测试套件的系统评估,我们可以了解 NorGLMs 在各种下游任务中的能力和可扩展性。
Dec, 2023
本文介绍了 NorLM 计划,旨在支持创建和使用极大的上下文化语言模型来支持挪威语(以及原则上其他北欧语言)的研究与应用,该计划提供了一个可用的软件环境和数据集,同时也提供了一份学习的经验报告。文章介绍了基于 ELMo 和 BERT 框架的挪威语大规模单语言模型的训练过程,并提供了一套 NLP 任务的对比基准结果。
Apr, 2021
本文介绍了一个名为 ScandEval 的斯堪的纳维亚基准平台,该平台可对四个不同任务的任何预训练模型进行基准测试。我们开发并发布了一个名为 scandeval 的 Python 软件包和命令行界面,可以对上传到 Hugging Face Hub 的任何模型进行基准测试,并提供可重复的结果。通过使用 ScandEval 软件包,我们对 100 多个斯堪的纳维亚或多语言模型进行基准测试,并在交互式在线排行榜中展示了这些结果,同时提供了结果分析。分析结果表明,在大陆斯堪的纳维亚语言之间存在很大的跨语言转移,而大陆斯堪的纳维亚语言组和岛屿斯堪的纳维亚语言组之间的跨语言转移有限。基准测试结果还表明,挪威、瑞典和丹麦的语言技术投资取得了优秀的成果,其语言模型性能超过了像 XLM-RoBERTa 和 mDeBERTaV3 之类的巨型多语言模型。我们同时发布了软件包和排行榜的源代码。
Apr, 2023
近期大型语言模型(LLMs)的发展和成功需要对其在不同语言的各种 NLP 任务中的性能进行评估。本研究介绍了 LLMeBench 框架,该框架最初是为了使用 OpenAI 的 GPT 和 BLOOM 模型评估阿拉伯语 NLP 任务而开发的,但它可以轻松地定制任何 NLP 任务和模型,无论语言如何。该框架还具有零样本学习和少样本学习的设置。用户可以在不到 10 分钟的时间内添加新的自定义数据集,并使用自己的模型 API 密钥评估所需的任务。该框架已经在 31 个独特的 NLP 任务中进行了测试,涉及 53 个公开可用的数据集和大约 296K 个数据点的 90 个实验设置。我们计划将该框架开源给社区。在线上有演示视频供观看。
Aug, 2023
该论文描述了一个开放的俄罗斯医学语言理解基准,包括分类、问答、自然语言推理、命名实体识别等多种任务类型,以及新的文本集合,提供统一格式标注、数据分割和评估指标,还实现了多个基准模型,从简单模型到具有变形金刚架构的神经网络模型,预计高级模型表现更好,但即使是简单模型在某些任务上也可以得到不错的结果。
Jan, 2022
本文介绍了自然语言处理中自动语音识别的基准线模型在 Bokmål 和 Nynorsk 上的表现,其中最优模型使得 Norwegian Parliamentary Speech Corpus 的词错误率降至 7.6%,并探讨了提高挪威语 ASR 模型的挑战和解决方案。
Jul, 2023
Dynabench 是一个开源平台,支持动态数据集创建和模型基准测试,可以在一个 web 浏览器中运行。通过人和模型操作,使 annotators 创建能够被目标模型误分类但另一个人不能误分类的示例。本文认为,Dynabench 解决了当前模型在基准任务上表现优异,但在简单的挑战示例和实际场景中失败的问题。我们针对四个初始 NLP 任务,阐述了这些概念,突出了 Dynabench 平台的优点,并解决了动态基准测定作为新标准引起的潜在反对意见。
Apr, 2021
最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而,现有的基准主要关注编程的简化或隔离方面,如单文件代码生成或存储库问题调试,无法全面衡量真实世界编程活动引发的各种挑战。为此,我们提出了 DevBench,这是一个全面的基准,评估 LLMs 在软件开发生命周期的各个阶段,包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域,具备高质量的数据收集,并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明,包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示,模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。
Mar, 2024
本文介绍了一个名为 GlobalBench 的多语言测试集,主要用于跟踪和激励全球对于不平衡的 NLP 系统表现以及对于被较少关注的语言技术的开发。GlobalBench 关注的不仅是准确度,同时还监测其涵盖的各种语言的效用和平等性,识别最需要开发的语言,并奖励相关研究。至今,GlobalBench 覆盖了 190 种语言的 966 个数据集,并有 1128 个系统提交,跨越 62 种语言。
May, 2023
CTBench 是一个用于评估语言模型在辅助临床研究设计方面的基准测试,通过给定特定研究元数据,CTBench 评估人工智能模型在确定临床试验的基线特征方面的能力,包括从所有参与者开始收集的人口统计学和相关特征。
Jun, 2024