EMNLPNov, 2020

100 语言的实体链接

TL;DR提出了一种新的多语言实体链接公式,其中语言特定的提及解析为面向语言不可知的知识库。 在改进特征表示,负面挖掘和辅助实体配对任务的先前工作的基础上,我们在这个新的环境中训练了一个双编码器,以获得单个实体检索模型,它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。 这个大规模的系统面临着罕见实体和低资源语言的挑战,因此我们主张增加对零点和少量射击评估的关注。 为此,我们提供了 Mewsli-9,一个新的大型多语言数据集,帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。