Airavata: 引入印度语指令调整的 LLM
通过引入针对 Indic LLMs 开发的广泛资源套件,包括 22 种语言,总共有 251 亿词汇和 7480 万指令 - 响应对,我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据,并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题,并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发,还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分,创建的数据和其他文物都以宽松的许可证发布。
Mar, 2024
本文介绍了我们生成大量 Odia 指令集以及领域知识数据,并构建针对 Odia 领域性能优化的 Llama2 微调模型的方法,这将帮助研究人员构建指令集和 LLM,特别是针对 Indic 语言。我们将为公众提供该模型和指令集,供研究和非商业用途使用。
Dec, 2023
该论文介绍了为 11 种广泛使用的印度语言(阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语)引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集(称为 INDIC-MARCO)以及 11 种不同的单语神经信息检索模型集合(称为 Indic-ColBERT),每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试,我们希望它能加速印度语言神经信息检索的研究。实验证明,与 INDIC-MARCO 基线相比,Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%,在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%,在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。
Dec, 2023
我们构建了一个日本指令数据集,并将其应用于一个日本预训练基础模型。通过我们的指令数据集,对日本和英文现有模型进行了低秩调整(LoRA)。从定量和定性的角度评估了这些模型,结果证实了日本指令数据集的有效性。同时也指出,即使在相对较小的大语言模型中,通过指令调整也能提高下游任务的性能。我们的指令数据集、调整模型和实现代码已在网上公开提供。
Sep, 2023
为了解决非英语文本生成的挑战,如生成质量差和计算性能下降等问题,本研究介绍了一种专为俄语设计的开源指令调整大型语言模型 Vikhr,通过适应性分词词汇表、持续预训练和指令调整权重等方法,提高模型性能和计算效率,并在俄语基准测试中取得显著成果。
May, 2024
本研究针对英语语言数据集的局限性,通过与全球流利的语言使用者合作,建立了覆盖 65 种语言的人工策划指令跟随数据集,并通过模板和翻译现有数据集创建了迄今最广泛的多语言数据集,共包含 5.13 亿个实例。此外,我们还提供 Aya 注释平台、Aya 数据集、Aya 集合和 Aya 评估套件等四个关键资源,而且 Aya 倡议还是一项有价值的参与性研究案例,涉及来自 119 个国家的合作者,我们认为此为未来旨在弥补资源差距的研究合作提供了宝贵的框架。
Feb, 2024
该研究旨在通过整合并创建特定于印度的并行语料库和基准测试数据,训练出支持所有 22 种印度语言的机器翻译模型,为印度的语言多样性提供广泛且易于访问的机器翻译系统,该研究创造性地提出了四个关键领域的改进,并发布了 BPCC 和 IndicTrans2 等数据资源和模型。
May, 2023
本文提出了 Vistaar,59 个受试语言和领域组合的基准,用于评估和改进三个公开的 ASR 系统和两个商业系统,同时使用 IndicWhisper 通过在 12 种印度语言上进行微调,在 Vistaar 基准中明显改善了考虑到的 ASR 系统。
May, 2023
介绍 IndicNLP 语料库,包含来自两种语言家族的 10 种印度语言的 27 亿词,分享了基于这些语料库训练的预训练词向量,证明其在多个评估任务中的显著优异表现,希望该语料库的开放能够加速 Indic 自然语言处理领域的研究。
Apr, 2020
本文介绍了 IndicXNLI,一个 NLI 数据集,用于 11 种印度语言的跨语言转移技术的分析,研究了不同的预训练模型、语言、多语言和混合语言输入等因素对预训练模型的行为的影响。
Apr, 2022