这篇文章介绍了针对加利西亚语的两个生成式大型语言模型,通过减少数据限制以及使用人工评估和任务数据集的方法,这些模型展现出良好的性能,强调了在生成式模型中语言多样性的重要性。
Jun, 2024
在这篇论文中,我们证明了在目标语言上进行单语言预训练可以显著提高已经广泛训练于多个语料库的模型,并在 14 个葡萄牙语数据集上表现优于基于英语和多语言模型的模型。我们的结果表明,从单语预训练获得的大多数收益来自于领域特定知识。
Apr, 2023
通过使用一种名为 Gervásio PT * 的完全开放的 Transformers 模型,该模型在神经解码葡萄牙语方面取得了新的技术突破,在本论文中还贡献了新的葡萄牙语的指令数据集,并致力于推动葡萄牙语语言技术的研究和创新。
Feb, 2024
Sabi'a-2 是一种基于葡萄牙语文本训练的大型语言模型,通过在各种考试中进行评估,包括巴西大学的入学考试、专业认证考试以及各种学科的研究生考试,发现 Sabi'a-2 Medium 在 64 场考试中有 23 场性能超过或与 GPT-4 相当,有 58 场性能超过 GPT-3.5,且专业化能显著提高模型的性能而无需增加大小,使 Sabi'a-2 Medium 的每个标记的价格比 GPT-4 便宜 10 倍,此外,我们发现数学和编码是需要改进的关键能力。
Mar, 2024
该研究介绍了两种新的资源来增强加利西亚语的自然语言处理,通过 Alpaca 数据集的 Galician 适应和 LLaMA-7B 的 fine-tune,为低资源语言提供了多语言模型的研究,并探索了在资源有限的情况下,如何利用相关语言(例如葡萄牙语)来生成连贯的文本。
Nov, 2023
为了在低资源环境下利用,开发了两种紧凑的巴西葡萄牙文本生成模型,发布在 GitHub 和 Hugging Face 上供社区使用和进一步开发。
Jan, 2024
借助对葡萄牙语神经模型的研究,我们提供了一套用于多种语言处理任务的数据集合,以及针对这些下游任务进行细调的神经语言模型集合。通过使用最先进的翻译引擎将数据集从英语机器翻译成葡萄牙语,以与文献中的主流基准相结合,启动了葡萄牙语的对应数据集。由此产生的 PORTULAN ExtraGLUE 基准是未来葡萄牙语研究的基础,可以在后续工作中进行改进。类似地,我们使用低秩适应方法开发的相应细调神经语言模型作为基准可促进葡萄牙语神经处理的未来工作。所有数据集和模型都已开发并可用于葡萄牙语的两个变体:欧洲葡萄牙语和巴西葡萄牙语。
Apr, 2024
提出了一种基于 LLaMA 2 的经过精调的模型,用于处理葡萄牙语提示,并通过零样本方法在分类任务中进行性能评估,为葡萄牙语提供了令人满意的结果,并且具有研究或商业用途的自由模型。
研究 GPT-3.5 和 GPT-4 等大型语言模型在巴西葡萄牙语中作为语法错误纠正工具的有效性和性能,并将其与 Microsoft Word 和 Google Docs 进行比较。
Jun, 2023
该研究聚焦于用于芬兰语的大型语言模型(LLMs)的创建和评估,通过从各种来源收集数据并进行预训练,综合其他语言模型的方法,在芬兰语领域取得了显著进展,并对模型的质量进行了评估,包括毒性和偏见。