荷兰大规模语言模型的语言资源

Dec, 2023

Language Resources for Dutch Large Language Modelling

Bram Vanroy

TL;DR尽管大型语言模型的类型不断扩大，但荷兰语模型仍存在显著差距，该研究提供了一小步来改善这一状况，引入两个经过微调的 Llama 2 13B 模型变种，使用荷兰特定网络爬取数据进行微调，随后在多个合成指令和聊天数据集上进一步优化模型，同时提供数据集和模型权重，并提供一个评估指标来追踪（荷兰）模型在多个生成任务上的性能，包括一些先进模型的结果，最后对需要推进荷兰语模型以及整个模型生态系统所需的关键点进行了关键性结论。

Abstract

Despite the rapid expansion of types of large language models, there remains a notable gap in models specifically designed for the dutch language. This gap is not only a shortage in terms of pretrained Dutch mode

large language models dutch language pretrained models fine-tuned variants leaderboard

发现论文，激发创造

SambaLingo: 教授大型语言模型新语言

我们详细调查了将 LLMs 适应到新语言的过程，包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题，我们的实验覆盖了 9 种语言和 2 个参数规模，并与先前的基准模型进行比较，我们的模型表现优于所有先前已发表的基准模型。

Apr, 2024

DUMB: 用于荷兰模型智能评估的基准测试

我们引入了荷兰模型基准: DUMB。该基准测试包括一组多样化的低、中、高资源任务数据集。通过比较 14 个预先训练的模型 (单语言和多语言，并且大小不同)，我们评估了基准任务的内部一致性，以及可能导致高性能的因素。我们的结果表明，当前的荷兰单语言模型表现不佳，并建议使用其他架构和预训练目标训练更大的荷兰模型。目前，最高性能是由 DeBERTaV3（大型）、XLM-R（大型）和 mDeBERTaV3（基础）实现的。除了突出训练较大的荷兰语模型的最佳策略外，DUMB 还将促进对荷兰语言研究的进一步开展。

May, 2023

优质数据到文本生成用于严重资源不足的语言的开箱即用大型语言模型

大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距，但人工评估表明 BLEU 分数相比于英语有所下降，对于评估非任务特定系统其适用性存疑。

Feb, 2024

穿越博斯普鲁斯海峡：通过低资源语言适应和基准测试推进土耳其大型语言模型

通过研究低资源语言，对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析，以进一步推进低资源语境下大型语言模型 (LLMs) 的发展，使自然语言处理 (NLP) 的益处更广泛可及。

May, 2024

通过人工反馈评估大型语言模型：建立瑞典基准

在人工智能领域，大型语言模型在多个应用中展示出显著的能力。然而，这些模型在资源较少的语言（如瑞典语）中的表现尚未深入研究。本研究引入了一种综合的人类基准，通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试，结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型（如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin）等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具，以改善我们对瑞典语语言模型性能的理解，并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。

May, 2024

RobBERT: 一种基于 RoBERTa 的荷兰语言模型

本研究使用 RobBERT 作为荷兰语预训练模型，对各种任务的执行效果进行了测量，包括用于微调的数据集规模的重要性以及模型的公平性。研究发现，RobBERT 在各种任务上都可以提供良好的性能，并且在处理较小的数据集时明显优于其他模型，这表明它是适用于多种荷兰语任务的功能强大的预训练模型。

Jan, 2020

BERTje：荷兰语 BERT 模型

该研究比较了基于 2.4 亿令牌的广泛数据集训练的荷兰语模型 BERTje 与基于维基百科文本的多语言 BERT 模型，在词性标注、命名实体识别、语义角色标注和情感分析等自然语言处理任务上，BERTje 表现出更好的性能。

Dec, 2019

优化多语言大型语言模型的语言增强：以韩文为例的案例研究

本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现：扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型，在质量分析中，我们的提出的 Bllossom 模型表现出优异的性能。

Mar, 2024

加利西亚语言中的对话：一种针对少数语言的大型语言模型

该研究介绍了两种新的资源来增强加利西亚语的自然语言处理，通过 Alpaca 数据集的 Galician 适应和 LLaMA-7B 的 fine-tune，为低资源语言提供了多语言模型的研究，并探索了在资源有限的情况下，如何利用相关语言（例如葡萄牙语）来生成连贯的文本。

Nov, 2023

Tamil-Llama：基于 Llama 2 的新泰米尔语言模型

通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型，本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练，以保证计算可行性和模型的稳健性。此外，我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进，对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码，进一步强调我们对开放研究的承诺，促进语言建模领域的进一步创新。

Nov, 2023