低资源印度语言马拉地问题回答的深度学习
该研究关注于为印地语和马拉地语开发一个问题回答数据集,通过将 SQuAD 2.0 数据集翻译成这两种语言,以解决数据稀缺的挑战,并发布了最大规模的问题回答数据集,同时提供了在这两种语言中表现最佳的模型,从而促进了进一步的研究。
Aug, 2023
本篇研究旨在建立自然语言处理模型,通过针对印度语的公共数据集进行微调以及训练,使得机器的提取问答任务的表现比已有模型更为优秀。基于 RoBERTa 模型构建的两种模型表现最好,证实了对于特定语言任务而言,训练数据的特异性对模型的表现影响更大。
Sep, 2022
在本文中,我们使用 Marathi 语言的标准多语言模型和单语模型比较分析,通过五种不同的下游任务微调实验证明了单语 MahaBERT 模型的性能比多语言 BERT 变体更好。同时,我们还评估了来自这些模型的句子嵌入。
Apr, 2022
本研究采用 IndicBART 和 mT5 模型,研究它们在印度语言数据集上的摘要性能,结果以 ROUGE-1、ROUGE-2、ROUGE-3 和 ROUGE-4 分数为性能指标。
Mar, 2023
本文提出一种用于低资源语言的提高问答技术的方法,即通过翻译和转写将问题回答样本扩充到目标语言,利用增广数据微调已经在英语中预训练的 mBERT 问答模型,并引入对翻译问题上下文特征对之间的对比损失来提高不同语言家族的翻译准确性。
Apr, 2022
该研究介绍了 L3Cube-MahaCorpus,这是一个从不同互联网来源抓取的马拉提语单语数据集,它包含 24.8M 句子和 289M 个记号。该研究基于这个数据集训练了多个模型,如 MahaBERT、MahaAlBERT、MahaRoBerta 和 MahaFT 等,并且展示了它们在下游任务中的有效性。这项工作是为了为马拉提语的开放资源建立一步。
Feb, 2022
本文研究低资源印度语言 Hindi 和 Marathi 的命名实体识别 (NER),使用 base-BERT,RoBERTa 和 AlBERT 等变体进行了基准测试,并在不同单语和多语 Transformer 模型之间进行了详细比较,发现 MahaRoBERTa 单语模型在 Marathi NER 方面表现最佳,而多语言 XLM-RoBERTa 在 Hindi NER 方面表现最佳。文中还进行了跨语言评估和提出了简单基线。
Mar, 2022
该研究旨在研究机器翻译中 Transformer 模型在低资源语言对(英爱尔兰语和英马拉地语)中的效果,并通过优化超参数和子词模型类型来显著提高低资源语言对的翻译质量。此外,还引入了 adaptNMT 和 adaptMLLM 两个开源应用程序,简化了神经机器翻译模型的开发、微调和部署过程,使其更容易被开发人员和翻译人员使用。
Mar, 2024
通过使用强大的数据策划方法,我们翻译了英语问答数据集(SQuAD),解决了低资源语言中无高效问答数据集的问题。我们引入了 MahaSQuAD,这是第一个适用于印度马拉地语的完整 SQuAD 数据集,包含 118,516 个训练样本、11,873 个验证样本和 11,803 个测试样本。另外,我们还提供了一个手动验证的黄金测试集,包含 500 个例子。通过解决上下文和语言细微差异的挑战,我们确保了准确的翻译。此外,由于无法简单地将问答数据集直接转换为任何低资源语言,我们需要一种强大的方法将答案翻译映射到译文段落中的相应部分。因此,为了解决这一挑战,我们还提出了一种通用方法,可以将 SQuAD 翻译成任何低资源语言。因此,在问题回答系统领域,我们提供了一种可扩展的方法,弥合了低资源语言中存在的语言和文化差距。数据集和模型已公开共享于此 https URL。
Apr, 2024
L3Cube-MahaNLP 旨在为印度第三流行的马拉地语构建 NLP 资源和库。该论文提出了针对情感分析、实体识别和仇恨言论检测的数据集和变形器模型,并发布了一个单语马拉地语语料库。作者的目标是为马拉地语准备有用的资源,并提供 MahaCorpus、MahaSent、MahaNER 和 MahaHate 数据集及其相应的 MahaBERT 模型。
May, 2022