WiLI 基准数据集用于书面语言鉴别
提出了一种多语言的词义消歧基准测试库(称为 XL-WiC),用于评估具有不同语言背景和资源可用性的模型,即使模型仅在英语数据上进行训练,仍能在跨语言学习中达到良好的性能。
Oct, 2020
该论文介绍了 Wanca 2017 语料库及其在 Uralic 语言鉴定上的应用、以及基于 ULI 2020 数据集的基线语言识别实验。
Aug, 2020
通过使用自然语言生成技术和人工智能协作来创造数据集,以及使用 WANLI 数据集训练模型取得了较高精度,具有以下关键词:众包、NLP 数据集、数据集创作、人工智能、自然语言推理
Jan, 2022
该研究介绍了 WikiLingua 项目,这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出 18 种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系,并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法,取得了显著的性能提升。
Oct, 2020
我们提出了 IndoNLI 数据集,这是第一个人类收集的适用于印度尼西亚语的 NLI 数据集。我们采用 MNLI 的数据收集协议,收集了近 18K 个由众包工人和专家标注的句子对。实验结果表明,在我们的数据中,XLM-R 的性能优于其他预训练模型。最佳性能仍然远低于人类性能(13.4%的准确度差距),表明此测试集具有特别的挑战性。此外,我们的分析显示,我们的专家标注数据比众包标注数据更加多样化,注释工件更少。我们希望这个数据集可以帮助加快印尼自然语言处理研究的进展。
Oct, 2021
提供了一个新的用于脚本识别算法比较的数据库,其中包含来自多个不同脚本的印刷和手写文件。该数据库可用于进行各种基准测试,并提供了不同级别和类型的脚本识别结果,为未来的研究提供基础。
May, 2024
本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别,该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法,为接下来创建 1,000 种语言的网络文本语料库铺平了道路。
Oct, 2020
本文介绍了 Wikipedia-based Image Text(WIT)数据集,该数据集是由不同语言构成的 37.6 百万个实体丰富的图像文本示例组成,可用于多模态模型的预训练,如应用于图像文本检索等下游任务。WIT 数据集有四个主要的优势,规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化,并提供一个非常具有挑战性的真实世界的测试集。
Mar, 2021
本论文介绍了一个基于大规模数据集的自然语言理解任务 - WikiReading,通过阅读相应维基百科文章,预测结构化知识库维基数据中的文本值,并对基于深度神经网络的模型进行了比较,发现最佳模型采用了一个具有复制词汇外单词机制的词级序列模型,获得了 71.8%的准确率。
Aug, 2016
本文介绍 IndicNLG 基准,一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合,包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务,使用预训练序列到序列模型和多语言基线来评估性能,并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。
Mar, 2022