为印度语言建立一个多语言平行语料收集的努力
该论文介绍了为印度东北地区的十三种资源非常匮乏的语言创建初始的双语语料库,同时提供了这些语言的初始翻译结果。该论文还创建了这些语言的首个平行语料库,并提供了关于这些语言的基准神经机器翻译结果。我们打算将这些语料库扩展到包括大量资源匮乏的印度语言,并结合我们之前在非洲和美洲印第安语言方面的工作,创建覆盖世界各地大量语言的语料库。
Dec, 2023
本研究提供了一个新的公开平行语料库(PMIndia),其中包含 13 种主要印度语言和英语的成对平行句子,每种语言对包含高达 56000 个句子。该语料库的构建及两种不同自动句子对齐方法的评估被描述,同时还介绍了该语料库在 NMT 方面的一些初步结果。
Jan, 2020
本文介绍我们正在进行的工作,使用语言学数据收集的领域方法,为四种资源匮乏的印度 - 雅利安语言 —— 阿瓦德语、博杰普尔语、布拉杰语和马加希语开发语音语料库。我们还讨论了这些语言的数据收集方法,大部分是在 COVID-19 疫情期间进行的,目的之一是为讲这些语言的低收入群体提供额外的收入来源,并讨论了这些语言的自动语音识别系统的基线实验结果。
Jun, 2022
该论文介绍了为 11 种广泛使用的印度语言(阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语)引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集(称为 INDIC-MARCO)以及 11 种不同的单语神经信息检索模型集合(称为 Indic-ColBERT),每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试,我们希望它能加速印度语言神经信息检索的研究。实验证明,与 INDIC-MARCO 基线相比,Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%,在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%,在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。
Dec, 2023
本文介绍了 IIT Bombay 英印双语平行语料库,包含超过 140 万个平行句段,其中有 69.4k 个句段从未公开发布,是目前公开发布的最大的英印平行语料库之一,并已被用于机器翻译的基准测试和分享任务。此语料库可供非商业研究免费使用。
Oct, 2017
本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架,其中包括基线 NMT 系统,检索模块和用于公共网站的对齐模块,通过迭代增加语料库来改进系统。我们的工作还评估了设计选择,例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比,本工作不仅提供了自动化框架,还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。
Aug, 2020
介绍了 Samanantar,这是最大的公共平行语料库集合,包括英语和 11 种印度语言之间的 49.7 百万句子对,同时提取自公共平行语料库和网络,并在 Samanantar 上训练多语种 NMT 模型,从而在公开可用的基准测试上优于现有模型和基准线,希望能够推进印度语言的 NMT 和多语种 NLP 研究。
Apr, 2021
介绍了 Bhinneka Korpus 这一多语种并行语料库,以增强印度尼西亚当地语言资源的获取和利用,并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。
Apr, 2024
自然语言处理在机器翻译、新闻分类和问答等高资源语种的任务上取得了显著的性能,但对于低资源语种的机器翻译仍有待改善。本文介绍了 EthioMT,一个包含 15 种语言的新的平行语料库,同时收集了一份更为研究充分的语言在埃塞俄比亚的基准数据集,通过使用变压器和微调方法对 23 种埃塞俄比亚语言的新收集语料和基准数据集进行评估。
Mar, 2024
本文讨论了一个自动语言识别系统的尝试,该系统用于印度 5 种密切相关的印度雅利安语言:阿瓦德语、博杰普尔语、布拉吉语、印地语和马加耳语。使用不同来源的可比较语料库,编译了这些语言的长度不同的语料库。使用这些语料库,开发了一个语言识别系统,目前的准确率为 96.48%。我们还使用这些语料库研究了 5 种语言在词汇水平上的相似性,这是这些语言亲和度首个基于数据的研究。
Mar, 2018