GlórIA - 一种面向葡萄牙语的生成式和开放性大型语言模型
在这篇论文中,我们证明了在目标语言上进行单语言预训练可以显著提高已经广泛训练于多个语料库的模型,并在14个葡萄牙语数据集上表现优于基于英语和多语言模型的模型。我们的结果表明,从单语预训练获得的大多数收益来自于领域特定知识。
Apr, 2023
该研究介绍了两种新的资源来增强加利西亚语的自然语言处理,通过Alpaca数据集的Galician适应和LLaMA-7B的fine-tune,为低资源语言提供了多语言模型的研究,并探索了在资源有限的情况下,如何利用相关语言(例如葡萄牙语)来生成连贯的文本。
Nov, 2023
提出了一种基于LLaMA 2的经过精调的模型,用于处理葡萄牙语提示,并通过零样本方法在分类任务中进行性能评估,为葡萄牙语提供了令人满意的结果,并且具有研究或商业用途的自由模型。
Jan, 2024
为了在低资源环境下利用,开发了两种紧凑的巴西葡萄牙文本生成模型,发布在GitHub和Hugging Face上供社区使用和进一步开发。
Jan, 2024
该论文介绍了基于RoBERTa架构的PeLLE模型系列,用于巴西葡萄牙语,使用来自Carolina语料库的筛选的开放数据进行训练。我们描述了模型的预训练细节,通过对比大型与精选预训练模型在多个下游任务中的性能,我们评估了PeLLE模型。我们得出结论,更大的模型在一些任务中表现更好,但一些任务从使用精选的数据进行预训练中受益。
Feb, 2024
为了促进葡萄牙语的神经编码,本论文提出了一些基础的编码器模型,这些模型是为这种语言开发的大型语言模型稀缺的生态系统的扩展,而且都是免费开放的,可以用于任何目的,包括研究和商业用途。此外,我们还获得了对其生态系统有意义的进一步结果,即基于SuperGLUE基准的葡萄牙语新数据集,我们也进行了开放分发。
Mar, 2024
这篇文章介绍了针对加利西亚语的两个生成式大型语言模型,通过减少数据限制以及使用人工评估和任务数据集的方法,这些模型展现出良好的性能,强调了在生成式模型中语言多样性的重要性。
Jun, 2024
本研究解决了大型语言模型(LLM)在欧洲官方语言处理中的差距,提供了对多种LLM家族及其在单语和多语数据集上预训练的方法概述。关键发现是,为欧洲语言定制的LLM具有显著的性能提升潜力,从而推动相关语言处理任务的进展。
Aug, 2024
本研究针对大型语言模型(LLMs)在欧洲官方语言中的应用现状进行了综述,填补了该领域的文献空白。通过对LLaMA、PaLM、GPT和MoE等不同模型的分析,本文提出了改进和增强LLMs的有效方法,并总结了用于预训练的单语和多语数据集。这项工作为今后在欧洲语言环境下的发展提供了有价值的见解。
Aug, 2024
本研究解决了葡萄牙语在神经文本生成领域资源不足的问题,通过开发GigaVerbo,一个包含2000亿个去重葡萄牙语文本的语料库,推动未来语言模型的发展。研究表明,使用新的解码器-变换器模型Tucano在多个基准测试中的表现超过了现有的同类模型,强调了现有评估方法在葡萄牙语生成模型性能评估中的局限性。
Nov, 2024