ScandEval: 用于北欧自然语言处理的基准测试

Apr, 2023

ScandEval: 用于北欧自然语言处理的基准测试

ScandEval: A Benchmark for Scandinavian Natural Language Processing

Dan Saattrup Nielsen

TL;DR本文介绍了一个名为 ScandEval 的斯堪的纳维亚基准平台，该平台可对四个不同任务的任何预训练模型进行基准测试。我们开发并发布了一个名为 scandeval 的 Python 软件包和命令行界面，可以对上传到 Hugging Face Hub 的任何模型进行基准测试，并提供可重复的结果。通过使用 ScandEval 软件包，我们对 100 多个斯堪的纳维亚或多语言模型进行基准测试，并在交互式在线排行榜中展示了这些结果，同时提供了结果分析。分析结果表明，在大陆斯堪的纳维亚语言之间存在很大的跨语言转移，而大陆斯堪的纳维亚语言组和岛屿斯堪的纳维亚语言组之间的跨语言转移有限。基准测试结果还表明，挪威、瑞典和丹麦的语言技术投资取得了优秀的成果，其语言模型性能超过了像 XLM-RoBERTa 和 mDeBERTaV3 之类的巨型多语言模型。我们同时发布了软件包和排行榜的源代码。

Abstract

This paper introduces a Scandinavian benchmarking platform, scandeval, which can benchmark any pretrained model on four different tasks in the Scandinavian languages. The datasets used in two of the tasks, lingui

scandeval pretrained model benchmarking package scandinavian languages cross-lingual transfer

发现论文，激发创造

北欧嵌入基准：多语言和单语文本嵌入的全面评估

通过引入 Scandinavian Embedding Benchmark (SEB)，该研究评估了 26 多个模型，揭示了公共和商业解决方案之间的显著性能差异，从而填补了评估斯堪的纳维亚语言文本嵌入的空白。

Jun, 2024

NorBench -- 挪威语言模型基准测试

NorBench 提供一套简化的 NLP 任务和探针，并引入了一系列新的挪威语言模型（包括编码器和编码器解码器），最后对其性能和其他现有的 LMs 在 NorBench 的不同基准测试中进行了比较和分析。

May, 2023

SciEval: 一个用于科学研究的多级大型语言模型评估基准

这篇论文提出了 SciEval 基准评估体系，以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学，覆盖了四个维度，系统评估科学研究能力。研究者进行了全面的实验证明，尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现，但仍有很大的改进空间，特别是在动态问题方面。数据和代码现已公开。

Aug, 2023

西班牙语句子表示的评估基准

通过构建两个评估基准（Spanish SentEval 和 Spanish DiscoEval），我们评估了最近的预先训练的西班牙语语言模型的功能和局限性，这些基准包括大量现有的和新构建的数据集，以解决来自各种领域的不同任务，并发现在对话评估任务的情况下，多语言模型 mBERT 通常提供比仅用西班牙语文档进行训练的模型更丰富的潜在表示。我们希望我们的贡献将激发一种更公正，更可比以及更不繁琐的方式来评估未来的西班牙语语言模型。

Apr, 2022

SeaEval 用于多语言基础模型：从跨语言对齐到文化推理

SeaEval 是一个多语种基础模型的评估基准，研究了模型对自然语言的理解、推理能力以及对文化实践、细微差别和价值观的理解。研究发现模型在给予释义指令时表现出不同的行为，许多模型仍存在曝光偏差，对于根源于事实、科学和常识知识的问题，多语种查询的一致性响应预期是相同的，然而大多数模型在这些查询上令人意外地表现出不一致的性能，需要更具有泛化能力的语义表示和增强的多语种上下文化能力。SeaEval 可用于多语种和文化情景下的更全面的调查和评估。

Sep, 2023

NLEBench+NorGLM：挪威语生成语言模型的全面实证分析和基准数据集

在这篇论文中，我们引入了 NLEBench，这是一个专门为评估挪威语等少资源语言的自然语言生成能力而设计的综合性基准测试，同时介绍了 NorGLMs，这是使用不同参数规模和基于 Transformer 的架构开发的基础挪威语生成语言模型。通过对提出的基准测试套件的系统评估，我们可以了解 NorGLMs 在各种下游任务中的能力和可扩展性。

Dec, 2023

MedEval：多层次、多任务、多领域的医学文本模型评估基准

为了促进医疗语言模型的发展，本文介绍了一个多层次、多任务和多领域的医疗基准数据集 MedEval，包含来自多个医疗系统的数据，跨越了 8 种检查模式的 35 个人体区域。我们对 10 个通用和领域特定的语言模型进行了系统评估，并发现语言模型在不同任务上的效果不同。同时，我们强调了对少样本使用大型语言模型进行指导调整的重要性。研究结果为医疗领域的语言模型基准测试提供了参考，并深入探讨了采用大型语言模型在医疗领域的优势和局限性，为其实际应用和未来发展提供了重要启示。

Oct, 2023

代码生成模型的多语言评估

本文提出了新的基准测试，包括 MBXP，Multilingual HumanEval 和 MathQA-X，以测试多语言环境下代码生成模型的性能，并发现了多语言模型的优势，以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者还利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他与代码相关的评估任务中使用的合成规范解决方案。

Oct, 2022

SD-Eval: 口语对话理解的基准数据集超越文本

为了评估和改进大型语言模型在口语对话理解和生成方面的能力，我们提出了 SD-Eval 标准数据集，该数据集聚合了代表情感、口音、年龄和背景声音的四个维度的 7,303 个话语，总计 8.76 个小时的语音数据，并通过客观和主观评估方法，以及基于大型语言模型的指标，证明了在任务定义和模型开发中使用语音的附加信息可以显著提高生成响应的质量。

Jun, 2024

测量斯堪的纳维亚语言模型中的有害表达

通过手动创建基于模板的句子和探索模型进行补全的方式，研究表明，覆盖丹麦语、瑞典语和挪威语的九种模型包含有害的、基于性别的刻板印象，在所有语言中具有类似的价值，这一发现违背了人们对于斯堪的纳维亚国家的性别平等的一般期望，同时表明在实际使用这些模型时可能存在问题。

Nov, 2022