Aya 模型：一种指令微调的开放式多语言语言模型

Feb, 2024

Aya 模型：一种指令微调的开放式多语言语言模型

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza...

TL;DR用 101 种语言的指令追踪的 Aya 广泛多语言生成语言模型在多任务中表现优越，同时扩展了用于 99 种语言的多语言评估的最新技术水平，并进行了关于优化微调混合成分、数据修剪以及模型的毒性、偏见和安全性的详细研究。

Abstract

Recent breakthroughs in large language models (LLMs) have centered around a handful of data-rich languages. What does it take to broaden access to breakthroughs beyond first-class citizen languages? Our work introduces

large language models aya multilingual eval finetuning toxicity

发现论文，激发创造

Aya 数据集：一份用于多语言指导调优的开放获取集合

本研究针对英语语言数据集的局限性，通过与全球流利的语言使用者合作，建立了覆盖 65 种语言的人工策划指令跟随数据集，并通过模板和翻译现有数据集创建了迄今最广泛的多语言数据集，共包含 5.13 亿个实例。此外，我们还提供 Aya 注释平台、Aya 数据集、Aya 集合和 Aya 评估套件等四个关键资源，而且 Aya 倡议还是一项有价值的参与性研究案例，涉及来自 119 个国家的合作者，我们认为此为未来旨在弥补资源差距的研究合作提供了宝贵的框架。

Feb, 2024

Aya 23: 开放权重发布以促进多语言进展

Aya 23 是一种多语言语言模型，在扩展接近全球人口一半的 23 种语言的同时，通过将更多容量分配给预训练阶段包含的少量语言，Aya 23 在其涵盖的语言上表现较好，超过了 Aya 101 等大规模多语言模型以及 Gemma、Mistral 和 Mixtral 等广泛使用的模型，在广泛的区别性和生成性任务上有着出色的表现。

May, 2024

YAYI 2：多语种开源大型语言模型

我们提出了 YAYI 2，这是一个具有 300 亿参数的基础模型和聊天模型的多语言模型，通过多个基准测试表明比其他类似规模的开源模型表现更好。

Dec, 2023

Jais 和 Jais-chat: 以阿拉伯语为中心的基础和经过指令调整的开放生成式大型语言模型

我们介绍了 Jais 和 Jais-chat，这是最新的阿拉伯语中心基于 GPT-3 解码器结构的大规模生成式语言模型，通过对阿拉伯语和英语文本进行预训练来展示出比现有的阿拉伯语和多语言模型更强的知识和推理能力，提供了详细的训练、调优、安全对齐和评估说明，并发布了两个开源版本的模型，旨在推动阿拉伯语语言模型的研究。

Aug, 2023

Aurora-M：第一个根据美国行政命令进行红队测试的开源多语言模型

Aurora-M is a multilingual open-source pretrained language model that addresses challenges such as limited multilingual capabilities and catastrophic forgetting, surpassing 2 trillion training tokens. It aligns with safety considerations and outperforms alternatives in multilingual settings.

Mar, 2024

玉兰：一个开源的大型语言模型

该论文介绍了 YuLan 的开发，这是一系列具有 120 亿参数的开源 LLMs，其基础模型在多样化语料库中进行了预训练，并采用了三阶段预训练方法以提高整体能力。通过使用大量高质量合成数据，结合指导调整和人工对齐的后续训练阶段，以及跨这些阶段的课程学习框架来促进复杂和长尾知识的学习，YuLan 已在各种英文和中文基准测试中达到与最先进 LLMs 相媲美的性能。

Jun, 2024

MaLA-500: 大规模语言模型的大规模语言适应

为了弥补大型语言模型在低资源语言方面的不足，本研究引入了 MaLA-500，一个设计用于覆盖 534 种语言范围的新型大型语言模型。通过词汇扩展和持续的预训练，MaLA-500 在 SIB-200 上的实验表明其实现了最新的上下文学习结果。我们将 MaLA-500 发布在指定的 URL 上。

Jan, 2024

最小人工投入快速开发大型语言模型的高质量指导数据和评估基准：以日语为例的案例研究

我们提出了基于 GPT-4 的高效自指导方法，通过翻译少量英语指令并进行修订，为日语构建高质量的指令数据和评估基准，并证明使用我们的 GPT-4 自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于 Japanese-Alpaca。

Mar, 2024

BayLing：面向大型语言模型的交互翻译，通过跨语言对齐和指令跟踪进行桥接

这篇文章提出了一种新的方法，通过互动翻译任务将英语的语言生成和指令遵循能力转移到其他语言，从而构建面向非英语语言的语言模型 BayLing。实验结果表明 BayLing 在词语翻译和多轮指令跟进等任务上都表现出了优异的性能。

Jun, 2023

LLaMA 跨越英语：语言能力转移的实证研究

我们通过对 LLaMA 的实证研究发现，在使用不到 1% 的预训练数据时，可以实现与最先进的转移模型相媲美的性能，无论是在知识对齐还是响应质量方面，这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语 LLMs。

Jan, 2024