多语种事件链接至维基数据

ACLApr, 2022

Multilingual Event Linking to Wikidata

Adithya Pratapa, Rishubh Gupta, Teruko Mitamura

TL;DR本文提出了一项多语种事件链接的任务，构建了包含 440 万触及 440 多种语言的事件数据集，其中两个变体均超过了基线模型。

Abstract

We present a task of multilingual linking of events to a knowledge base. We automatically compile a large-scale dataset for this task, comprising of 1.8M mentions across 44 languages referring to over 10.9K event

multilingual linking knowledge base event descriptions biencoder crossencoder

发现论文，激发创造

100 语言的实体链接

提出了一种新的多语言实体链接公式，其中语言特定的提及解析为面向语言不可知的知识库。在改进特征表示，负面挖掘和辅助实体配对任务的先前工作的基础上，我们在这个新的环境中训练了一个双编码器，以获得单个实体检索模型，它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。这个大规模的系统面临着罕见实体和低资源语言的挑战，因此我们主张增加对零点和少量射击评估的关注。为此，我们提供了 Mewsli-9，一个新的大型多语言数据集，帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。

Nov, 2020

事件链接：将事件提及与维基百科对接

本研究定义了事件关联，这是一种新的自然语言理解任务，尝试将文章中出现的事件与最相关的维基百科页面链接起来，并贡献了一份数据集用于此任务，同时对两个最新的实体链接模型进行重新训练和评估，并提出了一种用于此任务的竞争性系统 EVELINK。

Dec, 2021

神经跨语言实体链接

本文提出一种神经实体链接模型，通过多种角度训练查询和候选文档之间的细粒度相似性和不相似性，并结合卷积和张量网络，在多语言语境下实现跨语言实体链接，并证明该英文训练的系统可以通过使用多语言嵌入进行零 - shot 学习。该提议系统在英语以及跨语言测试中取得 state-of-the-art 的结果 (例如：西班牙语和汉语 TAC 的 2015 数据集)。

Dec, 2017

跨语言新闻 - 跨语言文档相似性与事件追踪

本研究基于 Event Registry 系统，使用基于 Wikipedia 的不同语言交叉文档相似度计算方法，解决了多语言流的新闻推送跟踪，提出了一种链接不同语言文章聚集的方法，并对整个系统进行了充分评估。

Dec, 2015

基于跨语言词向量的多语言新闻聚类研究

本文提出一种用于分类跨语言新闻的 incorporating clustering 模型，该模型使用跨语言向量表示新闻，使用 LDA 主题模型表示新闻内容，采用 Single-Pass 聚类算法进行优化，并利用知识蒸馏技术，将两个语义空间拟合为一个混合语义空间。

May, 2023

跨语言知识图谱实体标签映射的统计和神经方法

本研究探讨使用单词和句子对齐技术以及匹配算法来对来自特定多个语言的 Wikidata 实体标签进行对齐，并展示使用该技术能显着提高信息一致性的 F1 得分，尤其是使用句子嵌入技术的方法，这将可以用于机器翻译等领域。

Jun, 2022

跨语言生物医学实体链接的领域专用表示学习

通过提出一个新的跨语言生物医学实体链接任务并建立一个涵盖 10 种语言的基准测试，本文研究了在标准英语生物医学实体链接任务之外，标准、知识增强的单语和多语言语言模型的能力。同时解决了把资源丰富的语言中的领域特定知识传递给资源贫乏的语言的挑战，并提出并评估了一系列的跨语言传递方法。研究表明，本文提出的领域特定传递方法在所有目标语言中均获得了持续的提高，有时可高达 20 个 Precision@1 点，而无需目标语言具有领域内的知识和对应的并行数据。

May, 2021

用于零样本跨语言传递和更多应用的大规模多语句向量化技术

该研究介绍了一种以单个 BiLSTM 编码器为基础的多语言句子表示架构，其使用共享的 BPE 词汇表来学习 93 种语言的嵌入表示，并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练，可将其转移至任何一种语言，且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。

Dec, 2018

多任务双编码器模型学习跨语言句子表示

探索了一种使用双编码器学习跨语言句子表示的自然环境，以克服多语言神经语言建模中标记化非英语数据的缺乏，并在许多单语、跨语言、零样本 / 少样本学习任务上对跨语言表示进行了全面评估，并分析了不同的跨语言嵌入空间。

Oct, 2018

跨语言实体对齐与多方面信息

本文研究使用基于嵌入的方法将不同语言的实体编码到同一向量空间中，并提出使用预训练的多语言 BERT 模型来融合各个语言中的实体描述，以寻找源语言和目标语言之间相应实体的方法。结果表明，该方法在两个基准数据集上明显优于现有系统。

Oct, 2019