揭示多样性:对印度 AI 研究领域的综述
印度是一个拥有 14 亿人口的语言多样性国家,为了促进多语言大型语言模型的研究和评估,我们发布了 IndicGenBench,这是一个覆盖 13 种脚本、4 种语系以及 29 种印度语言的最大基准。我们对包括 GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM 和 LLaMA 在内的各种大型语言模型在 IndicGenBench 上的表现进行了评估,结果显示多数任务中表现最好的是最大的 PaLM-2 模型,但与英语相比,所有语言都存在显著的性能差距,因此我们需要进一步的研究来开发更具包容性的多语言语言模型。
Apr, 2024
通过引入针对 Indic LLMs 开发的广泛资源套件,包括 22 种语言,总共有 251 亿词汇和 7480 万指令 - 响应对,我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据,并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题,并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发,还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分,创建的数据和其他文物都以宽松的许可证发布。
Mar, 2024
本文介绍了 IndicXNLI,一个 NLI 数据集,用于 11 种印度语言的跨语言转移技术的分析,研究了不同的预训练模型、语言、多语言和混合语言输入等因素对预训练模型的行为的影响。
Apr, 2022
本文介绍 IndicNLG 基准,一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合,包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务,使用预训练序列到序列模型和多语言基线来评估性能,并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。
Mar, 2022
通过使用机器翻译作为涉及英语和 22 种印度语言的任务,我们探索了大型语言模型的多语言能力,研究了原始模型的翻译能力和上下文学习能力,通过参数高效的微调方法和完全微调,我们确定了最佳性能的大型语言模型。结果表明,大型语言模型在包括目前在 LLMs 中代表较少的语言的机器翻译能力方面取得了显著的进展。
Nov, 2023
对大型语言模型(LLMs)在多语种环境中的应用进行了综述,包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用,同时讨论了相关方面的主要挑战和潜在解决方案,并提出了进一步增强语言模型的未来研究方向。
May, 2024
该论文提出了一种使用印度语 LGBTI + 词汇表评估大型语言模型的方法,通过四个步骤:确定与期望行为相关的自然语言处理任务,创建用于测试语言模型的提示,使用语言模型获得输出,并进行手动评估。通过定性分析,我们发现我们实验的三个语言模型无法检测到潜在的仇恨内容,并且在使用机器翻译评估非英语语言的自然语言理解方面存在局限性。该论文提出的方法对其他语言的 LGBTI + 词汇表以及其他领域专用词表都有用处。这篇论文的研究工作为大型语言模型的负责任行为开辟了道路,如在 LGBTI + 社区的普遍社会认知背景下所示。
Oct, 2023
该论文介绍了为 11 种广泛使用的印度语言(阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语)引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集(称为 INDIC-MARCO)以及 11 种不同的单语神经信息检索模型集合(称为 Indic-ColBERT),每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试,我们希望它能加速印度语言神经信息检索的研究。实验证明,与 INDIC-MARCO 基线相比,Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%,在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%,在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。
Dec, 2023