Feb, 2024

Aya 数据集:一份用于多语言指导调优的开放获取集合

TL;DR本研究针对英语语言数据集的局限性,通过与全球流利的语言使用者合作,建立了覆盖 65 种语言的人工策划指令跟随数据集,并通过模板和翻译现有数据集创建了迄今最广泛的多语言数据集,共包含 5.13 亿个实例。此外,我们还提供 Aya 注释平台、Aya 数据集、Aya 集合和 Aya 评估套件等四个关键资源,而且 Aya 倡议还是一项有价值的参与性研究案例,涉及来自 119 个国家的合作者,我们认为此为未来旨在弥补资源差距的研究合作提供了宝贵的框架。