IndoLEM 和 IndoBERT: 印尼 NLP 的基准数据集和预训练语言模型

COLINGNov, 2020

IndoLEM 和 IndoBERT: 印尼 NLP 的基准数据集和预训练语言模型

IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model for Indonesian NLP

Fajri Koto, Afshin Rahimi, Jey Han Lau, Timothy Baldwin

TL;DR发布了包括七个任务的 IndoLEM 数据集，以及新的预训练语言模型 IndoBERT 用于印度尼西亚语言，并在 IndoLEM 上进行了评估和与现有资源进行了基准测试。实验结果表明，IndoBERT 在 IndoLEM 的大部分任务上实现了最先进的性能。

Abstract

Although the indonesian language is spoken by almost 200 million people and the 10th most spoken language in the world, it is under-represented in NLP research. Previous work on Indonesian has been hampered by a lack of annotated datasets, a sparsity of language resources, and a lack o

indonesian language nlp research annotated datasets indolem dataset indobert

发现论文，激发创造

IndoNLU: 评估印度尼西亚语自然语言理解的基准和资源

本研究引入了印度尼西亚自然语言理解（IndoNLU）任务的第一个巨大资源及其预训练模型 IndoBERT，包括从单句分类到对句子序列标记的 12 个任务，并提供了基准模型和评估框架以使每个人都能评估自己的系统性能。

Sep, 2020

IndoNLI：一个印尼自然语言推理数据集

我们提出了 IndoNLI 数据集，这是第一个人类收集的适用于印度尼西亚语的 NLI 数据集。我们采用 MNLI 的数据收集协议，收集了近 18K 个由众包工人和专家标注的句子对。实验结果表明，在我们的数据中，XLM-R 的性能优于其他预训练模型。最佳性能仍然远低于人类性能（13.4％的准确度差距），表明此测试集具有特别的挑战性。此外，我们的分析显示，我们的专家标注数据比众包标注数据更加多样化，注释工件更少。我们希望这个数据集可以帮助加快印尼自然语言处理研究的进展。

Oct, 2021

IndoNLG: 评估印尼语自然语言生成的基准和资源

IndoNLG 是一个基于印度尼西亚，印尼语，爪哇语和巽他语的自然语言生成基准的研究，它通过 Indo4B-Plus 数据的预处理，使用 IndoBART 和 IndoGPT 进行预训练，展示了在低资源语言下更为高效的训练和推断。

Apr, 2021

构建和扩展印尼本地语言的低资源和代表性平行数据集

介绍了 Bhinneka Korpus 这一多语种并行语料库，以增强印度尼西亚当地语言资源的获取和利用，并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。

Apr, 2024

IndoBERTweet：印度尼西亚推特预训练语言模型，具有效领域特定词汇初始化

本研究介绍了 IndoBERTweet，这是第一个大规模预训练的印度尼西亚语 Twitter 模型，它通过扩展单语训练的印度尼西亚 BERT 模型来训练，并使用了特定领域的词汇表。我们特别关注词汇不匹配下的有效模型适应性，并基准测试了不同的 BERT 嵌入层初始化方式，发现用平均 BERT 子词嵌入初始化可以使预训练速度提高五倍，并且在七个基于 Twitter 的数据集上使用外部评估比提出的词汇自适应方法更有效。

Sep, 2021

印尼金融 NLP 的领域特定语言模型后训练

我们在金融领域和印尼语言中进行了一项研究，通过对经过预训练的印尼 BERT 进行金融领域的后训练，并构建了印尼金融文本自监督语料库、印尼金融情感分析数据集和印尼金融主题分类数据集，释放了一系列适用于金融自然语言处理的 BERT 模型。我们还评估了对情感分析和主题分类任务进行领域特定后训练的有效性，发现后训练可以提高语言模型在特定领域下游任务上的效果。

Oct, 2023

NusaBERT: 将 IndoBERT 教成多语言和多文化

NusaBERT 是一种基于 IndoBERT 的模型，通过词汇扩展和多样化的多语种语料库，解决了印度尼西亚多语种和方言的自然语言理解问题，取得了最先进的成果，为研究少数语言奠定了基础。

Mar, 2024

NusaX：10 种印度尼西亚本地语言的多语言并行情感数据集

本文介绍了针对印度尼西亚低资源语言的第一次并行资源开发，包括数据集、多任务基准、词汇表和印度尼西亚 - 英文平行数据集，并描述了创建这些资源的挑战。该研究的目的是激发有关印度尼西亚和其他代表性不足语言的自然语言处理研究。

May, 2022

IndoSum: 一种新的印尼文本摘要基准数据集

本文介绍了 IndoSum，一个新的印度尼西亚文本摘要基准数据集，采用新闻文章和手动构建的摘要，该数据集是先前相同领域的数据集的近 200 倍，使用各种抽取式摘要方法进行了评估，获得了令人鼓舞的结果，为未来研究提供了基准。

Oct, 2018

IndicNLG 基准：印度语言中多样化自然语言生成任务的多语言数据集

本文介绍 IndicNLG 基准，一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合，包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务，使用预训练序列到序列模型和多语言基线来评估性能，并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。

Mar, 2022