DaMuEL：用于实体链接的大型多语言数据集

Jun, 2023

DaMuEL：用于实体链接的大型多语言数据集

DaMuEL: A Large Multilingual Dataset for Entity Linking

PDF

David Kubeša, Milan Straka

TL;DR介绍一个包涵 53 种语言数据的 DaMuEL 多语言实体链接大规模数据集，它包含一个关于实体的语言无关信息的知识库和与实体链接到知识库的维基百科文本，使用 Wikidata 的 QID 作为持久的语言无关标识符。

Abstract

We present damuel, a large multilingual dataset for entity linking containing data in 53 languages. →

damuel multilingual dataset entity linking knowledge base wikidata

发现论文，激发创造

100 语言的实体链接

提出了一种新的多语言实体链接公式，其中语言特定的提及解析为面向语言不可知的知识库。在改进特征表示，负面挖掘和辅助实体配对任务的先前工作的基础上，我们在这个新的环境中训练了一个双编码器，以获得单个实体检索模型，它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。这个大规模的系统面临着罕见实体和低资源语言的挑战，因此我们主张增加对零点和少量射击评估的关注。为此，我们提供了 Mewsli-9，一个新的大型多语言数据集，帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。

Nov, 2020

WikiDiverse：一个多模态的实体链接数据集，具有多样化的上下文主题和实体类型

本研究提出了 WikiDiverse，一个高质量的人工注释的 Multimodal Entity Linking（MEL）数据集，利用该数据集提出了一系列好的基于 intra-modality 和 inter-modality attentions 的 MEL 模型，比现有的 MEL 模型更充分利用图像的视觉信息，并通过大量实验分析了不同模态在 MEL 任务中的贡献。

Apr, 2022

DAWT: 多语言密集注释维基百科文本

本研究介绍了 DAWT 数据集，包含 13.6M 英文、西班牙语、意大利语、德语、法语和阿拉伯语维基百科文章，共 5.0B 个标记，以及 13.8M 个提及的实体共同出现。同时，我们提出的方法可以扩展维基百科标记，以提高链接的数量，并开放了一些基于数据集的应用，这为自然语言处理和信息检索社区以及多语言研究提供了助力。

Mar, 2017

AMUSE: 面向语义链接数据的多语言问答语义解析

研究发现，多语言自然语言问答技术仍存在困难，我们提出了一种利用 DUDES 和 MCMC 方法建立模型的 QALD 管道，成功将自然语言问题转换为可执行的 SPARQL 查询，并且在英语、德语和西班牙语环境下进行了测试。

Feb, 2018

QALD-9-plus: 面向 DBpedia 和 Wikidata 的多语言问题回答数据集（由本地说话人翻译）

通过将高质量问题的翻译引入到最受欢迎的 KGQA 基准测试之一 QALD-9 中，从 DBpedia 到 Wikidata 的迁移和添加 8 种语言的支持来扩展 QALD-9 基准测试，从而增强了数据集的可用性和相关性，该数据集称为 QALD-9-Plus，将提供在线支持。

Jan, 2022

DLAMA: 一个用于整理多元文化事实以探究预训练语言模型知识的框架

本研究提出了一种新的针对文化多样性的基准数据集 DLAMA-v1，并表明英语提示对多语言模型的性能有较大的影响。

Jun, 2023

MADLAD-400：一个多语言和文档级别的大型审计数据集

我们介绍了 MADLAD-400，这是一个人工审核的、基于 CommonCrawl 的通用领域 3T 令牌单语数据集，涵盖 419 种语言。我们讨论了 MADLAD-400 自我审核揭示的局限性以及数据审核在数据集创建过程中的作用。然后，我们使用公开可用的数据训练和发布了一个具有 1070 亿个参数的多语言机器翻译模型，涵盖了超过 450 种语言，并发现它与规模更大的模型相竞争，在不同领域报告了结果。此外，我们训练了一个具有 80 亿个参数的语言模型，并评估了在几次翻译中的结果。我们将基准模型提供给研究界。

Sep, 2023

MuMiN: 一个大规模多语言多模态事实核查的虚假信息社交网络数据集

通过构建一个数据收集和链接系统（MuMiN-trawl），我们开发了一个公共的虚假信息图数据集（MuMiN），它包含 21 百万条推文，13 千个经过事实检查的声明和 41 种不同语言，为自动虚假信息检测研究提供了大规模、多样化和高质量的数据集。我们公开了基线结果来证明这些是具有挑战性的任务。

Feb, 2022

DeMuX：数据高效的多语言学习

优化预训练的多语言模型，在有限的目标数据和注释预算的情况下，使用 DEMUX 框架进行精确的标注点选择，通过距离和不确定性措施选取最具信息量的任务相关邻居，取得优于强基线的效果，特别是在低预算情况下可提高 F1 分数。

Nov, 2023

多语种事件链接至维基数据

本文提出了一项多语种事件链接的任务，构建了包含 440 万触及 440 多种语言的事件数据集，其中两个变体均超过了基线模型。

Apr, 2022