SIB-200：一个简单、包容和大规模的 200 + 种语言和方言的主题分类评估数据集

Sep, 2023

SIB-200：一个简单、包容和大规模的 200 + 种语言和方言的主题分类评估数据集

SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic Classification in 200+ Languages and Dialects

David Ifeoluwa Adelani, Hannah Liu, Xiaoyu Shen, Nikita Vassilyev, Jesujoba O. Alabi...

TL;DR我们创建了一个大规模的开源基准数据集 SIB-200，用于解决自然语言理解方面缺乏评估数据集的问题，并在全监督、跨语言迁移和大型语言模型等多个环境中评估，结果显示在众多世界语言中，高资源语言和低资源语言之间仍存在很大差距。我们的研究表明，缺乏预训练多语言语言模型的语言、少数语言家族以及来自非洲、美洲、大洋洲和东南亚地区的语言通常在主题分类数据集上表现最差。希望我们的数据集能鼓励对更多种类语言进行多语言语言模型的包容性评估。

Abstract

Despite the progress we have recorded in the last few years in multilingual natural language processing, evaluation is typically limited to a small set of languages with available datasets which excludes a large number of low-resource languages. In this paper, we created SIB-200 -- a large-scale open-sourced benchmark dataset for →

multilingual natural language processing evaluation dataset topic classification low-resource languages multilingual language models

发现论文，激发创造

Taxi1500：1500 种语言文本分类的多语言数据集

通过并行翻译圣经来开发广泛的主题，并利用众包工具收集标记数据，标注英文端的数据，并通过已对齐的诗句将标签映射到其他语言，从而为 1500 多种语言生成文本分类数据集，并对多个现有的多语言语言模型进行广泛基准测试。

May, 2023

FLORES-101 低资源和多语言机器翻译评估基准

本文介绍了 FLORES-101 评估基准，该数据集由 3001 句从英文维基百科中提取出来的涵盖各种主题和领域的句子，在 101 种语言中由专业翻译人员进行翻译。该数据集可用于评估低资源语言和多对多多语言翻译系统的模型质量。

Jun, 2021

大规模多语种情感数据集和多方面情感分类基准

该研究提供了一个由 79 个数据集组成的开放性跨语言语料库，可用于培训情感模型，同时展现了基于不同基础模型、训练目标、数据集集合和微调策略所进行的数百次实验的多方面情感分类基准。

Jun, 2023

大规模多语言情感分类器评估

研究评估 11 种模型在 27 种语言中进行情感分析任务。

Apr, 2022

IndicSUPERB：印度语言语音处理通用性能基准

该篇论文主要介绍了自然语言理解和语音语言理解中使用的 GLUE 数据集和 SUPERB 基准集，同时提供了 IndicSUPERB 基准集，为印度语音语言理解模型的开发做出贡献。该论文探讨了使用自我监督模型在各种印度语言中进行的训练和评估，证明了 Self-supervised 模型在语言识别任务中的优势。

Aug, 2022

UCAS-IIE-NLP 在 SemEval-2023 任务 12 中的表现：增强低资源情感分析的多语言 BERT 泛化能力

本文描述了我们为 SemEval-2023 任务 12 而设计的系统：对非洲语言进行情感分析。为了缓解低资源环境下标记数据和语言资源的短缺问题，我们提出了一个通用的多语言系统 SACL-XLMR，用于对低资源语言进行情感分析。我们的系统在多语言和零样本情感分类子任务中表现出色，并在零样本分类子任务中获得了官方排名的第一名。

Jun, 2023

Setswana 和 Sepedi 的低资源语言数据集创建、筛选和分类 -- 扩展摘要

研究了自然语言处理技术在低资源语言中的应用，提出了用于塞茨瓦纳语和塞班语头条新闻的数据集及其用于新闻主题分类的基线模型，并探索了一种适合低资源语言的数据增强方法以提高分类器性能。

Mar, 2020

SD-Eval: 口语对话理解的基准数据集超越文本

为了评估和改进大型语言模型在口语对话理解和生成方面的能力，我们提出了 SD-Eval 标准数据集，该数据集聚合了代表情感、口音、年龄和背景声音的四个维度的 7,303 个话语，总计 8.76 个小时的语音数据，并通过客观和主观评估方法，以及基于大型语言模型的指标，证明了在任务定义和模型开发中使用语音的附加信息可以显著提高生成响应的质量。

Jun, 2024

评估跨语言句子表示的 XNLI

本文提出了 XNLI 数据集用于跨语言句子理解的评估，并研究了多语言句子理解的基准和挑战。

Sep, 2018

研究低资源语言数据集的创建、整理和分类方法：塞茨瓦纳语和塞彭迪语

该研究主要介绍了如何创建用于塞茨瓦纳语和塞班语的新闻标题数据集，并探讨了数据增强等方法来提高分类器性能。

Feb, 2020