Aya 模型:一种指令微调的开放式多语言语言模型
本研究针对英语语言数据集的局限性,通过与全球流利的语言使用者合作,建立了覆盖 65 种语言的人工策划指令跟随数据集,并通过模板和翻译现有数据集创建了迄今最广泛的多语言数据集,共包含 5.13 亿个实例。此外,我们还提供 Aya 注释平台、Aya 数据集、Aya 集合和 Aya 评估套件等四个关键资源,而且 Aya 倡议还是一项有价值的参与性研究案例,涉及来自 119 个国家的合作者,我们认为此为未来旨在弥补资源差距的研究合作提供了宝贵的框架。
Feb, 2024
Aya 23 是一种多语言语言模型,在扩展接近全球人口一半的 23 种语言的同时,通过将更多容量分配给预训练阶段包含的少量语言,Aya 23 在其涵盖的语言上表现较好,超过了 Aya 101 等大规模多语言模型以及 Gemma、Mistral 和 Mixtral 等广泛使用的模型,在广泛的区别性和生成性任务上有着出色的表现。
May, 2024
我们介绍了 Jais 和 Jais-chat,这是最新的阿拉伯语中心基于 GPT-3 解码器结构的大规模生成式语言模型,通过对阿拉伯语和英语文本进行预训练来展示出比现有的阿拉伯语和多语言模型更强的知识和推理能力,提供了详细的训练、调优、安全对齐和评估说明,并发布了两个开源版本的模型,旨在推动阿拉伯语语言模型的研究。
Aug, 2023
Aurora-M is a multilingual open-source pretrained language model that addresses challenges such as limited multilingual capabilities and catastrophic forgetting, surpassing 2 trillion training tokens. It aligns with safety considerations and outperforms alternatives in multilingual settings.
Mar, 2024
该论文介绍了 YuLan 的开发,这是一系列具有 120 亿参数的开源 LLMs,其基础模型在多样化语料库中进行了预训练,并采用了三阶段预训练方法以提高整体能力。通过使用大量高质量合成数据,结合指导调整和人工对齐的后续训练阶段,以及跨这些阶段的课程学习框架来促进复杂和长尾知识的学习,YuLan 已在各种英文和中文基准测试中达到与最先进 LLMs 相媲美的性能。
Jun, 2024
为了弥补大型语言模型在低资源语言方面的不足,本研究引入了 MaLA-500,一个设计用于覆盖 534 种语言范围的新型大型语言模型。通过词汇扩展和持续的预训练,MaLA-500 在 SIB-200 上的实验表明其实现了最新的上下文学习结果。我们将 MaLA-500 发布在指定的 URL 上。
Jan, 2024
我们提出了基于 GPT-4 的高效自指导方法,通过翻译少量英语指令并进行修订,为日语构建高质量的指令数据和评估基准,并证明使用我们的 GPT-4 自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于 Japanese-Alpaca。
Mar, 2024
这篇文章提出了一种新的方法,通过互动翻译任务将英语的语言生成和指令遵循能力转移到其他语言,从而构建面向非英语语言的语言模型 BayLing。实验结果表明 BayLing 在词语翻译和多轮指令跟进等任务上都表现出了优异的性能。
Jun, 2023
我们通过对 LLaMA 的实证研究发现,在使用不到 1% 的预训练数据时,可以实现与最先进的转移模型相媲美的性能,无论是在知识对齐还是响应质量方面,这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语 LLMs。
Jan, 2024