TeenyTinyLlama: 开源的巴西葡萄牙语小型语言模型训练
在这篇论文中,我们证明了在目标语言上进行单语言预训练可以显著提高已经广泛训练于多个语料库的模型,并在14个葡萄牙语数据集上表现优于基于英语和多语言模型的模型。我们的结果表明,从单语预训练获得的大多数收益来自于领域特定知识。
Apr, 2023
本文介绍了TinyStories数据集和一种新的评估语言模型的方法,该数据集使用GPT-3.5和GPT-4生成,只包含3到4岁儿童通常理解的单词。使用TinyStories可以训练和评估比现有模型小得多的语言模型,并引入新的评估范式来评估这些模型的语言能力和多维度的得分,例如语法、创造性和连贯性等。这可以促进低资源或专业领域的语言模型的发展、分析和研究,并提高对于语言模型能力的认识。
May, 2023
该研究介绍了两种新的资源来增强加利西亚语的自然语言处理,通过Alpaca数据集的Galician适应和LLaMA-7B的fine-tune,为低资源语言提供了多语言模型的研究,并探索了在资源有限的情况下,如何利用相关语言(例如葡萄牙语)来生成连贯的文本。
Nov, 2023
TinyLlama是一个小型预训练语言模型,通过利用开源社区的先进技术(如FlashAttention)提高计算效率,在一系列下游任务中表现出色,超过了同规模的现有开源语言模型。
Jan, 2024
通过Gl'orIA这一强大的欧洲葡萄牙语解码器 LLM,在多个下游任务中,Gl'orIA在语言模型和生成有丰富知识且连贯的葡萄牙语文本方面远优于现有的 PT 解码模型。
Feb, 2024
对大型语言模型(LLMs)在多语种环境中的应用进行了综述,包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用,同时讨论了相关方面的主要挑战和潜在解决方案,并提出了进一步增强语言模型的未来研究方向。
May, 2024
这篇文章介绍了针对加利西亚语的两个生成式大型语言模型,通过减少数据限制以及使用人工评估和任务数据集的方法,这些模型展现出良好的性能,强调了在生成式模型中语言多样性的重要性。
Jun, 2024
本研究针对低资源语言中的现有多语言模型表现不佳的问题,提出了金鱼这一新颖的单语自回归Transformer语言模型系列,支持多达350种语言。尽管金鱼模型的参数数量较小,但在98种语言的FLORES困惑度指标上优于现有大型多语言模型。本研究为低资源NLP研究提供了有效的基准模型和微调来源,促进了该领域的进一步发展。
Aug, 2024
本研究解决了大型语言模型(LLM)在欧洲官方语言处理中的差距,提供了对多种LLM家族及其在单语和多语数据集上预训练的方法概述。关键发现是,为欧洲语言定制的LLM具有显著的性能提升潜力,从而推动相关语言处理任务的进展。
Aug, 2024
本研究针对大型语言模型(LLMs)在欧洲官方语言中的应用现状进行了综述,填补了该领域的文献空白。通过对LLaMA、PaLM、GPT和MoE等不同模型的分析,本文提出了改进和增强LLMs的有效方法,并总结了用于预训练的单语和多语数据集。这项工作为今后在欧洲语言环境下的发展提供了有价值的见解。
Aug, 2024