用于加利西亚语的开放式生成大型语言模型
本研究对生成式大型语言模型 (LLMs) 进行了全面的评测,并通过对比同类非自回归模型,探讨了这些模型在多语种 NLP 任务中的性能表现和限制,旨在为未来改进 LLMs 提供方向。
Mar, 2023
该研究介绍了两种新的资源来增强加利西亚语的自然语言处理,通过Alpaca数据集的Galician适应和LLaMA-7B的fine-tune,为低资源语言提供了多语言模型的研究,并探索了在资源有限的情况下,如何利用相关语言(例如葡萄牙语)来生成连贯的文本。
Nov, 2023
该研究聚焦于用于芬兰语的大型语言模型(LLMs)的创建和评估,通过从各种来源收集数据并进行预训练,综合其他语言模型的方法,在芬兰语领域取得了显著进展,并对模型的质量进行了评估,包括毒性和偏见。
Nov, 2023
研究通过以前辈生成的合成数据对大型语言模型进行训练的后果,重点关注这种训练方法对语言多样性的影响,特别是在逐步迭代的过程中。通过开展递归微调实验,应用一系列针对词汇、句法和语义多样性的新型度量标准,我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险,特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。
Nov, 2023
为了在低资源环境下利用,开发了两种紧凑的巴西葡萄牙文本生成模型,发布在GitHub和Hugging Face上供社区使用和进一步开发。
Jan, 2024
大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距,但人工评估表明BLEU分数相比于英语有所下降,对于评估非任务特定系统其适用性存疑。
Feb, 2024
通过Gl'orIA这一强大的欧洲葡萄牙语解码器 LLM,在多个下游任务中,Gl'orIA在语言模型和生成有丰富知识且连贯的葡萄牙语文本方面远优于现有的 PT 解码模型。
Feb, 2024
本研究解决了大型语言模型(LLM)在欧洲官方语言处理中的差距,提供了对多种LLM家族及其在单语和多语数据集上预训练的方法概述。关键发现是,为欧洲语言定制的LLM具有显著的性能提升潜力,从而推动相关语言处理任务的进展。
Aug, 2024
本研究针对大型语言模型(LLMs)在欧洲官方语言中的应用现状进行了综述,填补了该领域的文献空白。通过对LLaMA、PaLM、GPT和MoE等不同模型的分析,本文提出了改进和增强LLMs的有效方法,并总结了用于预训练的单语和多语数据集。这项工作为今后在欧洲语言环境下的发展提供了有价值的见解。
Aug, 2024
本研究针对现有的大型语言模型在低资源语言上的局限性,提出了一种新方法开发适用于斯洛文尼亚语的生成模型GaMS 1B。通过对英语OPT模型的持续预训练和新的分词器的开发,研究表明GaMS在句子简化任务上表现出色,与GPT-3.5-Turbo模型相媲美,显示了其潜在的应用价值。
Oct, 2024