多语种事件链接至维基数据
提出了一种新的多语言实体链接公式,其中语言特定的提及解析为面向语言不可知的知识库。 在改进特征表示,负面挖掘和辅助实体配对任务的先前工作的基础上,我们在这个新的环境中训练了一个双编码器,以获得单个实体检索模型,它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。 这个大规模的系统面临着罕见实体和低资源语言的挑战,因此我们主张增加对零点和少量射击评估的关注。 为此,我们提供了 Mewsli-9,一个新的大型多语言数据集,帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。
Nov, 2020
本研究定义了事件关联,这是一种新的自然语言理解任务,尝试将文章中出现的事件与最相关的维基百科页面链接起来,并贡献了一份数据集用于此任务,同时对两个最新的实体链接模型进行重新训练和评估,并提出了一种用于此任务的竞争性系统 EVELINK。
Dec, 2021
本文提出一种神经实体链接模型,通过多种角度训练查询和候选文档之间的细粒度相似性和不相似性,并结合卷积和张量网络,在多语言语境下实现跨语言实体链接,并证明该英文训练的系统可以通过使用多语言嵌入进行零 - shot 学习。该提议系统在英语以及跨语言测试中取得 state-of-the-art 的结果 (例如:西班牙语和汉语 TAC 的 2015 数据集)。
Dec, 2017
本研究基于 Event Registry 系统,使用基于 Wikipedia 的不同语言交叉文档相似度计算方法,解决了多语言流的新闻推送跟踪,提出了一种链接不同语言文章聚集的方法,并对整个系统进行了充分评估。
Dec, 2015
本文提出一种用于分类跨语言新闻的 incorporating clustering 模型,该模型使用跨语言向量表示新闻,使用 LDA 主题模型表示新闻内容,采用 Single-Pass 聚类算法进行优化,并利用知识蒸馏技术,将两个语义空间拟合为一个混合语义空间。
May, 2023
本研究探讨使用单词和句子对齐技术以及匹配算法来对来自特定多个语言的 Wikidata 实体标签进行对齐,并展示使用该技术能显着提高信息一致性的 F1 得分,尤其是使用句子嵌入技术的方法,这将可以用于机器翻译等领域。
Jun, 2022
通过提出一个新的跨语言生物医学实体链接任务并建立一个涵盖 10 种语言的基准测试,本文研究了在标准英语生物医学实体链接任务之外,标准、知识增强的单语和多语言语言模型的能力。同时解决了把资源丰富的语言中的领域特定知识传递给资源贫乏的语言的挑战,并提出并评估了一系列的跨语言传递方法。研究表明,本文提出的领域特定传递方法在所有目标语言中均获得了持续的提高,有时可高达 20 个 Precision@1 点,而无需目标语言具有领域内的知识和对应的并行数据。
May, 2021
该研究介绍了一种以单个 BiLSTM 编码器为基础的多语言句子表示架构,其使用共享的 BPE 词汇表来学习 93 种语言的嵌入表示,并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练,可将其转移至任何一种语言,且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。
Dec, 2018
探索了一种使用双编码器学习跨语言句子表示的自然环境,以克服多语言神经语言建模中标记化非英语数据的缺乏,并在许多单语、跨语言、零样本 / 少样本学习任务上对跨语言表示进行了全面评估,并分析了不同的跨语言嵌入空间。
Oct, 2018
本文研究使用基于嵌入的方法将不同语言的实体编码到同一向量空间中,并提出使用预训练的多语言 BERT 模型来融合各个语言中的实体描述,以寻找源语言和目标语言之间相应实体的方法。结果表明,该方法在两个基准数据集上明显优于现有系统。
Oct, 2019