构建和扩展印尼本地语言的低资源和代表性平行数据集

Apr, 2024

构建和扩展印尼本地语言的低资源和代表性平行数据集

Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages

Joanito Agili Lopo, Radius Tanone

TL;DR介绍了 Bhinneka Korpus 这一多语种并行语料库，以增强印度尼西亚当地语言资源的获取和利用，并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。

Abstract

In indonesia, local languages play an integral role in the culture. However, the available Indonesian language resources still fall into the category of limited data in the Natural Language Processing (NLP) field

indonesia local languages bhinneka korpus nlp model multilingual translation models

发现论文，激发创造

NusaX：10 种印度尼西亚本地语言的多语言并行情感数据集

本文介绍了针对印度尼西亚低资源语言的第一次并行资源开发，包括数据集、多任务基准、词汇表和印度尼西亚 - 英文平行数据集，并描述了创建这些资源的挑战。该研究的目的是激发有关印度尼西亚和其他代表性不足语言的自然语言处理研究。

May, 2022

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023

构建东北印度极低资源语言机器翻译平行语料的首次尝试

该论文介绍了为印度东北地区的十三种资源非常匮乏的语言创建初始的双语语料库，同时提供了这些语言的初始翻译结果。该论文还创建了这些语言的首个平行语料库，并提供了关于这些语言的基准神经机器翻译结果。我们打算将这些语料库扩展到包括大量资源匮乏的印度语言，并结合我们之前在非洲和美洲印第安语言方面的工作，创建覆盖世界各地大量语言的语料库。

Dec, 2023

在印度尼西亚的低资源本地语言上复制性评测神经机器翻译 (NMT)

通过对印尼四种资源匮乏的本土语言：爪哇语、巽他语、民丹・卡巴乌语和巴厘语的神经机器翻译系统进行全面分析，本研究揭示了适用于资源匮乏语言翻译的实用策略，展示了实现竞争性翻译品质的神经机器翻译系统，对类似背景的研究者提供了有价值的指导。

Nov, 2023

EthioMT：适用于低资源埃塞俄比亚语言的平行语料库

自然语言处理在机器翻译、新闻分类和问答等高资源语种的任务上取得了显著的性能，但对于低资源语种的机器翻译仍有待改善。本文介绍了 EthioMT，一个包含 15 种语言的新的平行语料库，同时收集了一份更为研究充分的语言在埃塞俄比亚的基准数据集，通过使用变压器和微调方法对 23 种埃塞俄比亚语言的新收集语料和基准数据集进行评估。

Mar, 2024

IndoNLU: 评估印度尼西亚语自然语言理解的基准和资源

本研究引入了印度尼西亚自然语言理解（IndoNLU）任务的第一个巨大资源及其预训练模型 IndoBERT，包括从单句分类到对句子序列标记的 12 个任务，并提供了基准模型和评估框架以使每个人都能评估自己的系统性能。

Sep, 2020

一个国家，700 + 种语言：印度尼西亚少数语言与方言的 NLP 挑战

该研究提供了关于印度尼西亚 700 多种语言的 NLP 研究现状的概述，突出了印尼 NLP 面临的挑战以及这些挑战如何影响当前 NLP 系统的性能。最后，我们提供一些推荐来发展印尼和其他语言的 NLP 技术。

Mar, 2022

跨语言数据集构建与必要资源的综述

该研究旨在量化语言资源之间的不平等性，并提出一些方法来改善低资源语言的数据收集，以促进未来的多语言数据发展。

Nov, 2022

适用于印度尼西亚本地语言的基于位置的 Twitter 过滤器，用于创建低资源语言数据集

本文研究了推特上少数语言数据的应用，针对印尼地方语言的本土化问题，提出了一个基于地理信息自动标注的本地化 Indonesian NLP 框架。

Jun, 2022

NusaCrowd：印尼语言开放可重复的自然语言处理研究的呼声

本研究旨在探讨印度尼西亚自然语言处理领域的数据稀缺问题，并提出了一种名为 NusaCrowd 的众包方法，通过聚合印尼语系的数据资源来加强该领域的研究。

Jul, 2022