WiLI 基准数据集用于书面语言鉴别

Jan, 2018

WiLI 基准数据集用于书面语言鉴别

The WiLI benchmark dataset for written language identification

PDF

Martin Thoma

TL;DR本篇论文介绍了 WiLI-2018 基准数据集，它是一个用于单语文本识别的公开免费数据集，包含来自维基百科的 1000 个段落，涵盖了 235 种语言，为分类数据集，用于确定未知主导语言的段落所属的语言。

Abstract

This paper describes the wili-2018 benchmark dataset for monolingual written natural language identification. →

wili-2018 benchmark dataset natural language identification classification dataset wikipedia

发现论文，激发创造

XL-WiC: 用于评估语义上下文的多语言基准

提出了一种多语言的词义消歧基准测试库（称为 XL-WiC），用于评估具有不同语言背景和资源可用性的模型，即使模型仅在英语数据上进行训练，仍能在跨语言学习中达到良好的性能。

Oct, 2020

Uralic 语言鉴别 (ULI) 2020 共享任务数据集和 Wanca 2017 语料库

该论文介绍了 Wanca 2017 语料库及其在 Uralic 语言鉴定上的应用、以及基于 ULI 2020 数据集的基线语言识别实验。

Aug, 2020

WANLI: 工人与人工智能合作创建自然语言推理数据集

通过使用自然语言生成技术和人工智能协作来创造数据集，以及使用 WANLI 数据集训练模型取得了较高精度，具有以下关键词：众包、NLP 数据集、数据集创作、人工智能、自然语言推理

Jan, 2022

WikiLingua：一种用于跨语言主旨提取的新基准数据集

该研究介绍了 WikiLingua 项目，这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出 18 种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系，并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法，取得了显著的性能提升。

Oct, 2020

IndoNLI：一个印尼自然语言推理数据集

我们提出了 IndoNLI 数据集，这是第一个人类收集的适用于印度尼西亚语的 NLI 数据集。我们采用 MNLI 的数据收集协议，收集了近 18K 个由众包工人和专家标注的句子对。实验结果表明，在我们的数据中，XLM-R 的性能优于其他预训练模型。最佳性能仍然远低于人类性能（13.4％的准确度差距），表明此测试集具有特别的挑战性。此外，我们的分析显示，我们的专家标注数据比众包标注数据更加多样化，注释工件更少。我们希望这个数据集可以帮助加快印尼自然语言处理研究的进展。

Oct, 2021

MDIW-13：一个新的多语言和多脚本数据库与脚本识别基准

提供了一个新的用于脚本识别算法比较的数据库，其中包含来自多个不同脚本的印刷和手写文件。该数据库可用于进行各种基准测试，并提供了不同级别和类型的脚本识别结果，为未来的研究提供基础。

May, 2024

野外语言识别：通往千语言网络文本语料库的挑战

本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别，该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法，为接下来创建 1,000 种语言的网络文本语料库铺平了道路。

Oct, 2020

WIT: 基于维基百科的图像文本数据集，用于多模态多语言机器学习

本文介绍了 Wikipedia-based Image Text（WIT）数据集，该数据集是由不同语言构成的 37.6 百万个实体丰富的图像文本示例组成，可用于多模态模型的预训练，如应用于图像文本检索等下游任务。WIT 数据集有四个主要的优势，规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化，并提供一个非常具有挑战性的真实世界的测试集。

Mar, 2021

WikiReading：基于维基百科的大规模语言理解任务

本论文介绍了一个基于大规模数据集的自然语言理解任务 - WikiReading，通过阅读相应维基百科文章，预测结构化知识库维基数据中的文本值，并对基于深度神经网络的模型进行了比较，发现最佳模型采用了一个具有复制词汇外单词机制的词级序列模型，获得了 71.8％的准确率。

Aug, 2016

IndicNLG 基准：印度语言中多样化自然语言生成任务的多语言数据集

本文介绍 IndicNLG 基准，一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合，包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务，使用预训练序列到序列模型和多语言基线来评估性能，并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。

Mar, 2022