荷兰大规模语言模型的语言资源
我们详细调查了将 LLMs 适应到新语言的过程,包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题,我们的实验覆盖了 9 种语言和 2 个参数规模,并与先前的基准模型进行比较,我们的模型表现优于所有先前已发表的基准模型。
Apr, 2024
我们引入了荷兰模型基准: DUMB。该基准测试包括一组多样化的低、中、高资源任务数据集。通过比较 14 个预先训练的模型 (单语言和多语言,并且大小不同),我们评估了基准任务的内部一致性,以及可能导致高性能的因素。我们的结果表明,当前的荷兰单语言模型表现不佳,并建议使用其他架构和预训练目标训练更大的荷兰模型。目前,最高性能是由 DeBERTaV3(大型)、XLM-R(大型)和 mDeBERTaV3(基础)实现的。除了突出训练较大的荷兰语模型的最佳策略外,DUMB 还将促进对荷兰语言研究的进一步开展。
May, 2023
大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距,但人工评估表明 BLEU 分数相比于英语有所下降,对于评估非任务特定系统其适用性存疑。
Feb, 2024
通过研究低资源语言,对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析,以进一步推进低资源语境下大型语言模型 (LLMs) 的发展,使自然语言处理 (NLP) 的益处更广泛可及。
May, 2024
在人工智能领域,大型语言模型在多个应用中展示出显著的能力。然而,这些模型在资源较少的语言(如瑞典语)中的表现尚未深入研究。本研究引入了一种综合的人类基准,通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试,结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型(如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin)等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具,以改善我们对瑞典语语言模型性能的理解,并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。
May, 2024
本研究使用 RobBERT 作为荷兰语预训练模型,对各种任务的执行效果进行了测量,包括用于微调的数据集规模的重要性以及模型的公平性。研究发现,RobBERT 在各种任务上都可以提供良好的性能,并且在处理较小的数据集时明显优于其他模型,这表明它是适用于多种荷兰语任务的功能强大的预训练模型。
Jan, 2020
该研究比较了基于 2.4 亿令牌的广泛数据集训练的荷兰语模型 BERTje 与基于维基百科文本的多语言 BERT 模型,在词性标注、命名实体识别、语义角色标注和情感分析等自然语言处理任务上,BERTje 表现出更好的性能。
Dec, 2019
本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现:扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型,在质量分析中,我们的提出的 Bllossom 模型表现出优异的性能。
Mar, 2024
该研究介绍了两种新的资源来增强加利西亚语的自然语言处理,通过 Alpaca 数据集的 Galician 适应和 LLaMA-7B 的 fine-tune,为低资源语言提供了多语言模型的研究,并探索了在资源有限的情况下,如何利用相关语言(例如葡萄牙语)来生成连贯的文本。
Nov, 2023
通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型,本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练,以保证计算可行性和模型的稳健性。此外,我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码,进一步强调我们对开放研究的承诺,促进语言建模领域的进一步创新。
Nov, 2023