IndicXNLI: 评估印度语言的多语言推理
本篇研究通过重新翻译 14 种不同语言的 MNLI 数据集,包括 XNLI 测试和开发集,以改进原始 XNLI 数据集,并通过在 15 种不同语言中训练模型并分析其在自然语言推断任务上的表现来实现跨语言理解和自然语言处理,同时通过在英语以外的语言中训练模型来探索在资源匮乏的语言(如斯瓦希里和乌尔都语)中提高性能的可能性。
Jan, 2023
本文介绍 IndicNLG 基准,一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合,包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务,使用预训练序列到序列模型和多语言基线来评估性能,并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。
Mar, 2022
我们提出了 IndoNLI 数据集,这是第一个人类收集的适用于印度尼西亚语的 NLI 数据集。我们采用 MNLI 的数据收集协议,收集了近 18K 个由众包工人和专家标注的句子对。实验结果表明,在我们的数据中,XLM-R 的性能优于其他预训练模型。最佳性能仍然远低于人类性能(13.4%的准确度差距),表明此测试集具有特别的挑战性。此外,我们的分析显示,我们的专家标注数据比众包标注数据更加多样化,注释工件更少。我们希望这个数据集可以帮助加快印尼自然语言处理研究的进展。
Oct, 2021
本研究通过将英语 XNLI 语料库机器翻译成巴斯克语,然后进行人工后期处理的步骤来扩展 XNLI,从而对巴斯克语进行低资源跨语言自然语言理解进行评估,结果表明后期处理是必要的,翻译 - 训练跨语言策略在总体上获得更好的结果。
Apr, 2024
通过引入针对 Indic LLMs 开发的广泛资源套件,包括 22 种语言,总共有 251 亿词汇和 7480 万指令 - 响应对,我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据,并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题,并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发,还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分,创建的数据和其他文物都以宽松的许可证发布。
Mar, 2024
该论文介绍了为 11 种广泛使用的印度语言(阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语)引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集(称为 INDIC-MARCO)以及 11 种不同的单语神经信息检索模型集合(称为 Indic-ColBERT),每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试,我们希望它能加速印度语言神经信息检索的研究。实验证明,与 INDIC-MARCO 基线相比,Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%,在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%,在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。
Dec, 2023
本文介绍了 IndicXTREME,一个由 9 个不同任务组成的基准测试,包括来自印度次大陆、属于 4 个不同语系的 18 种语言。我们更新和扩展了 IndicCorp,提供了 IndicBERT v2,并证明了它优于现有的多语言语言模型,如 XLM-R 和 MuRIL。
Dec, 2022
研究多语言 transformers 在英文和中文自然语言推断方面的跨语言转移能力,并基于 17 个中文挑战任务对其性能进行测试。研究发现,跨语言模型在训练时使用英语和高质量的单语 NLI 数据(OCNLI)通常表现最好,而自动翻译资源则会影响其性能。
Jun, 2021
本篇研究旨在建立自然语言处理模型,通过针对印度语的公共数据集进行微调以及训练,使得机器的提取问答任务的表现比已有模型更为优秀。基于 RoBERTa 模型构建的两种模型表现最好,证实了对于特定语言任务而言,训练数据的特异性对模型的表现影响更大。
Sep, 2022