DUMB: 用于荷兰模型智能评估的基准测试

May, 2023

DUMB: 用于荷兰模型智能评估的基准测试

DUMB: A Benchmark for Smart Evaluation of Dutch Models

Wietse de Vries, Martijn Wieling, Malvina Nissim

TL;DR我们引入了荷兰模型基准: DUMB。该基准测试包括一组多样化的低、中、高资源任务数据集。通过比较 14 个预先训练的模型 (单语言和多语言，并且大小不同)，我们评估了基准任务的内部一致性，以及可能导致高性能的因素。我们的结果表明，当前的荷兰单语言模型表现不佳，并建议使用其他架构和预训练目标训练更大的荷兰模型。目前，最高性能是由 DeBERTaV3（大型）、XLM-R（大型）和 mDeBERTaV3（基础）实现的。除了突出训练较大的荷兰语模型的最佳策略外，DUMB 还将促进对荷兰语言研究的进一步开展。

Abstract

We introduce the dutch model benchmark: DUMB. The benchmark includes a diverse set of datasets for low-, medium- and high-resource tasks. The total set of eight tasks include three tasks that were previously not available in Dutch. Instead of relying on a mean score across tasks, we pr

dutch model benchmark relative error reduction pre-trained models dutch language models performance assessment

发现论文，激发创造

荷兰大规模语言模型的语言资源

尽管大型语言模型的类型不断扩大，但荷兰语模型仍存在显著差距，该研究提供了一小步来改善这一状况，引入两个经过微调的 Llama 2 13B 模型变种，使用荷兰特定网络爬取数据进行微调，随后在多个合成指令和聊天数据集上进一步优化模型，同时提供数据集和模型权重，并提供一个评估指标来追踪（荷兰）模型在多个生成任务上的性能，包括一些先进模型的结果，最后对需要推进荷兰语模型以及整个模型生态系统所需的关键点进行了关键性结论。

Dec, 2023

RobBERT: 一种基于 RoBERTa 的荷兰语言模型

本研究使用 RobBERT 作为荷兰语预训练模型，对各种任务的执行效果进行了测量，包括用于微调的数据集规模的重要性以及模型的公平性。研究发现，RobBERT 在各种任务上都可以提供良好的性能，并且在处理较小的数据集时明显优于其他模型，这表明它是适用于多种荷兰语任务的功能强大的预训练模型。

Jan, 2020

BERTje：荷兰语 BERT 模型

该研究比较了基于 2.4 亿令牌的广泛数据集训练的荷兰语模型 BERTje 与基于维基百科文本的多语言 BERT 模型，在词性标注、命名实体识别、语义角色标注和情感分析等自然语言处理任务上，BERTje 表现出更好的性能。

Dec, 2019

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

为机器翻译学习紧凑的度量

使用 RemBERT 模型的实验表明，模型大小限制了跨语言转换的效率，将知识从一名教师传递到以相关语言训练的多个学生可以通过蒸馏解决这个问题，该方法可以使性能提高 10.5％，并仅使用 RemBERT 的三分之一的参数即可达到 92.6％的性能。

Oct, 2021

CALM：一个综合评估语言模型偏见的多任务基准

评估语言模型偏见的全面评估基准数据集（CALM）是用于量化与比较语言模型社会人口统计偏见的重要资源，通过整合现有数据集并构建包含 78,400 个样例的 244 个模板的数据集，CALM 数据集更具多样性和可靠性，能更好地评估语言模型的广度和偏见。

Aug, 2023

ARBERT 和 MARBERT: 面向阿拉伯语的深度双向转换器

本文提出了两个基于深度双向变压器的模型 ARBERT 和 MARBERT，并引入了一个针对多语言阿拉伯语理解评估的基准 ARLUE。在 42 个数据集上进行了一系列基准实验，结果表明将这两种模型细化后在大多数任务上取得了最先进的结果并提供了公共可用的模型。

Dec, 2020

基于基准数据集的大型语言模型路由

通过重新利用基准数据集来学习 “路由器” 模型，我们解决了在一系列模型中为新任务选择最佳的大型语言模型的挑战，并展示了学习模型路由器在不同基准数据集上的效用和局限性，从而在所有任务中持续提高性能。

Sep, 2023

FinEst BERT 和 CroSloEngual BERT: 在多语言模型中，少即是多

本文介绍训练两个三语 Bert 模型 —— 一种适用于芬兰语、爱沙尼亚语和英语的 FinEst BERT 以及一种适用于克罗地亚语、斯洛文尼亚语和英语的 CroSloEngual BERT，并在多种单语和跨语言情况下使用 BERT 和 XLM-R 作为基线评估它们在多个下游任务上的性能，包括命名实体识别、词性标注和依存句法分析，结果表明这些模型能够提高大多数情况下所有任务的结果。

Jun, 2020

评估无监督的荷兰语单词嵌入作为语言资源

本文探讨使用基于计数和基于预测结构构建的多种类型词向量嵌入在两个特定任务中的表现，即关系评估和方言识别，同时展示了这些嵌入的实用性以及在下游任务中的有效性。

Jul, 2016