DaMuEL:用于实体链接的大型多语言数据集
提出了一种新的多语言实体链接公式,其中语言特定的提及解析为面向语言不可知的知识库。 在改进特征表示,负面挖掘和辅助实体配对任务的先前工作的基础上,我们在这个新的环境中训练了一个双编码器,以获得单个实体检索模型,它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。 这个大规模的系统面临着罕见实体和低资源语言的挑战,因此我们主张增加对零点和少量射击评估的关注。 为此,我们提供了 Mewsli-9,一个新的大型多语言数据集,帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。
Nov, 2020
本研究提出了 WikiDiverse,一个高质量的人工注释的 Multimodal Entity Linking(MEL)数据集,利用该数据集提出了一系列好的基于 intra-modality 和 inter-modality attentions 的 MEL 模型,比现有的 MEL 模型更充分利用图像的视觉信息,并通过大量实验分析了不同模态在 MEL 任务中的贡献。
Apr, 2022
本研究介绍了 DAWT 数据集,包含 13.6M 英文、西班牙语、意大利语、德语、法语和阿拉伯语维基百科文章,共 5.0B 个标记,以及 13.8M 个提及的实体共同出现。同时,我们提出的方法可以扩展维基百科标记,以提高链接的数量,并开放了一些基于数据集的应用,这为自然语言处理和信息检索社区以及多语言研究提供了助力。
Mar, 2017
研究发现,多语言自然语言问答技术仍存在困难,我们提出了一种利用 DUDES 和 MCMC 方法建立模型的 QALD 管道,成功将自然语言问题转换为可执行的 SPARQL 查询,并且在英语、德语和西班牙语环境下进行了测试。
Feb, 2018
通过将高质量问题的翻译引入到最受欢迎的 KGQA 基准测试之一 QALD-9 中,从 DBpedia 到 Wikidata 的迁移和添加 8 种语言的支持来扩展 QALD-9 基准测试,从而增强了数据集的可用性和相关性,该数据集称为 QALD-9-Plus,将提供在线支持。
Jan, 2022
我们介绍了 MADLAD-400,这是一个人工审核的、基于 CommonCrawl 的通用领域 3T 令牌单语数据集,涵盖 419 种语言。我们讨论了 MADLAD-400 自我审核揭示的局限性以及数据审核在数据集创建过程中的作用。然后,我们使用公开可用的数据训练和发布了一个具有 1070 亿个参数的多语言机器翻译模型,涵盖了超过 450 种语言,并发现它与规模更大的模型相竞争,在不同领域报告了结果。此外,我们训练了一个具有 80 亿个参数的语言模型,并评估了在几次翻译中的结果。我们将基准模型提供给研究界。
Sep, 2023
通过构建一个数据收集和链接系统(MuMiN-trawl),我们开发了一个公共的虚假信息图数据集(MuMiN),它包含 21 百万条推文,13 千个经过事实检查的声明和 41 种不同语言,为自动虚假信息检测研究提供了大规模、多样化和高质量的数据集。我们公开了基线结果来证明这些是具有挑战性的任务。
Feb, 2022
优化预训练的多语言模型,在有限的目标数据和注释预算的情况下,使用 DEMUX 框架进行精确的标注点选择,通过距离和不确定性措施选取最具信息量的任务相关邻居,取得优于强基线的效果,特别是在低预算情况下可提高 F1 分数。
Nov, 2023