用于加利西亚语的开放式生成大型语言模型

Jun, 2024

用于加利西亚语的开放式生成大型语言模型

Open Generative Large Language Models for Galician

Pablo Gamallo, Pablo Rodríguez, Iria de-Dios-Flores, Susana Sotelo, Silvia Paniagua...

TL;DR这篇文章介绍了针对加利西亚语的两个生成式大型语言模型，通过减少数据限制以及使用人工评估和任务数据集的方法，这些模型展现出良好的性能，强调了在生成式模型中语言多样性的重要性。

Abstract

large language models (LLMs) have transformed natural language processing. Yet, their predominantly English-centric training has led to biases and →

发现论文，激发创造

MEGA：多语言生成AI的评估

本研究对生成式大型语言模型 (LLMs) 进行了全面的评测，并通过对比同类非自回归模型，探讨了这些模型在多语种 NLP 任务中的性能表现和限制，旨在为未来改进 LLMs 提供方向。

Mar, 2023

加利西亚语言中的对话：一种针对少数语言的大型语言模型

该研究介绍了两种新的资源来增强加利西亚语的自然语言处理，通过Alpaca数据集的Galician适应和LLaMA-7B的fine-tune，为低资源语言提供了多语言模型的研究，并探索了在资源有限的情况下，如何利用相关语言（例如葡萄牙语）来生成连贯的文本。

Nov, 2023

FinGPT：小语种的大型生成模型

该研究聚焦于用于芬兰语的大型语言模型（LLMs）的创建和评估，通过从各种来源收集数据并进行预训练，综合其他语言模型的方法，在芬兰语领域取得了显著进展，并对模型的质量进行了评估，包括毒性和偏见。

Nov, 2023

语言多样性的好奇衰退：基于合成文本训练语言模型

研究通过以前辈生成的合成数据对大型语言模型进行训练的后果，重点关注这种训练方法对语言多样性的影响，特别是在逐步迭代的过程中。通过开展递归微调实验，应用一系列针对词汇、句法和语义多样性的新型度量标准，我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险，特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。

Nov, 2023

TeenyTinyLlama: 开源的巴西葡萄牙语小型语言模型训练

为了在低资源环境下利用，开发了两种紧凑的巴西葡萄牙文本生成模型，发布在GitHub和Hugging Face上供社区使用和进一步开发。

Jan, 2024

优质数据到文本生成用于严重资源不足的语言的开箱即用大型语言模型

大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距，但人工评估表明BLEU分数相比于英语有所下降，对于评估非任务特定系统其适用性存疑。

Feb, 2024

GlórIA - 一种面向葡萄牙语的生成式和开放性大型语言模型

通过Gl'orIA这一强大的欧洲葡萄牙语解码器 LLM，在多个下游任务中，Gl'orIA在语言模型和生成有丰富知识且连贯的葡萄牙语文本方面远优于现有的 PT 解码模型。

Feb, 2024

关于欧洲语言的大型语言模型调查

本研究解决了大型语言模型（LLM）在欧洲官方语言处理中的差距，提供了对多种LLM家族及其在单语和多语数据集上预训练的方法概述。关键发现是，为欧洲语言定制的LLM具有显著的性能提升潜力，从而推动相关语言处理任务的进展。

Aug, 2024

关于欧洲语言的大型语言模型调查

本研究针对大型语言模型（LLMs）在欧洲官方语言中的应用现状进行了综述，填补了该领域的文献空白。通过对LLaMA、PaLM、GPT和MoE等不同模型的分析，本文提出了改进和增强LLMs的有效方法，并总结了用于预训练的单语和多语数据集。这项工作为今后在欧洲语言环境下的发展提供了有价值的见解。

Aug, 2024

具备10亿参数的低资源语言生成模型

本研究针对现有的大型语言模型在低资源语言上的局限性，提出了一种新方法开发适用于斯洛文尼亚语的生成模型GaMS 1B。通过对英语OPT模型的持续预训练和新的分词器的开发，研究表明GaMS在句子简化任务上表现出色，与GPT-3.5-Turbo模型相媲美，显示了其潜在的应用价值。

Oct, 2024