IndoNLU: 评估印度尼西亚语自然语言理解的基准和资源
IndoNLG 是一个基于印度尼西亚,印尼语,爪哇语和巽他语的自然语言生成基准的研究,它通过 Indo4B-Plus 数据的预处理,使用 IndoBART 和 IndoGPT 进行预训练,展示了在低资源语言下更为高效的训练和推断。
Apr, 2021
发布了包括七个任务的 IndoLEM 数据集,以及新的预训练语言模型 IndoBERT 用于印度尼西亚语言,并在 IndoLEM 上进行了评估和与现有资源进行了基准测试。实验结果表明,IndoBERT 在 IndoLEM 的大部分任务上实现了最先进的性能。
Nov, 2020
本文介绍了针对印度尼西亚低资源语言的第一次并行资源开发,包括数据集、多任务基准、词汇表和印度尼西亚 - 英文平行数据集,并描述了创建这些资源的挑战。该研究的目的是激发有关印度尼西亚和其他代表性不足语言的自然语言处理研究。
May, 2022
我们提出了 IndoNLI 数据集,这是第一个人类收集的适用于印度尼西亚语的 NLI 数据集。我们采用 MNLI 的数据收集协议,收集了近 18K 个由众包工人和专家标注的句子对。实验结果表明,在我们的数据中,XLM-R 的性能优于其他预训练模型。最佳性能仍然远低于人类性能(13.4%的准确度差距),表明此测试集具有特别的挑战性。此外,我们的分析显示,我们的专家标注数据比众包标注数据更加多样化,注释工件更少。我们希望这个数据集可以帮助加快印尼自然语言处理研究的进展。
Oct, 2021
介绍了 Bhinneka Korpus 这一多语种并行语料库,以增强印度尼西亚当地语言资源的获取和利用,并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。
Apr, 2024
本研究旨在探讨印度尼西亚自然语言处理领域的数据稀缺问题,并提出了一种名为 NusaCrowd 的众包方法,通过聚合印尼语系的数据资源来加强该领域的研究。
Jul, 2022
本文介绍 IndicNLG 基准,一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合,包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务,使用预训练序列到序列模型和多语言基线来评估性能,并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。
Mar, 2022
通过对印尼四种资源匮乏的本土语言:爪哇语、巽他语、民丹・卡巴乌语和巴厘语的神经机器翻译系统进行全面分析,本研究揭示了适用于资源匮乏语言翻译的实用策略,展示了实现竞争性翻译品质的神经机器翻译系统,对类似背景的研究者提供了有价值的指导。
Nov, 2023
NusaCrowd 是一个协作平台,致力于收集和整合印尼语言资源,提高印尼语言自然语言处理和自然语言生成的效果,并创立了印尼语言的零 - shot 基准测试和多语言自动语音识别评测。
Dec, 2022
介绍了 BanglaBERT 模型,它是在一种 NLP 文献中被广泛使用但语料库有限的低资源语言 - 孟加拉语上进行预训练的 BERT-based NLU 模型。通过对 110 个流行的孟加拉网站进行爬取,作者们收集了 27.5 GB 的 Bangla2B+ 语料库。在多项不同的 NLU 任务中,BanglaBERT 均取得了最好的效果,同时也将这些任务纳入了首个 Bangla Language Understanding Benchmark (BLUB)。模型、数据集和排行榜已公开,为孟加拉自然语言处理的进一步发展做出了贡献。
Jan, 2021