低资源跨语言实体链接的设计挑战
通过三种简单而有效的方法,针对低资源语言交叉链接解决方案的实体候选生成方法进行改进,通过在七个数据集上的实验发现,我们的方法在 Top-30 gold candidate recall 上平均提高了 16.9%,在端到端 XEL 的 in-KB 准确性方面平均提高了 7.9%,相对于最先进的基线。
Mar, 2020
本文提出了一种结合多种语言监督信息的跨语言实体链接方法,极大地提高了低资源语言中实体表达的识别准确率,在多语言环境下训练的模型也表现出了明显的优势。同时,在零样例和低资源情境下也做出了相应的分析,证明了该模型的鲁棒性与适用性。
Sep, 2018
本文提出一种神经实体链接模型,通过多种角度训练查询和候选文档之间的细粒度相似性和不相似性,并结合卷积和张量网络,在多语言语境下实现跨语言实体链接,并证明该英文训练的系统可以通过使用多语言嵌入进行零 - shot 学习。该提议系统在英语以及跨语言测试中取得 state-of-the-art 的结果 (例如:西班牙语和汉语 TAC 的 2015 数据集)。
Dec, 2017
本文介绍了 LIEL,一种语言无关的实体链接系统,通过使用区分重排框架和许多不受领域和语言限制的特征函数,它可以在多种不同的语言中工作。在各种基准数据集上的实验表明,该系统在英语上表现出色,在训练过英语的情况下,也可以很好地工作在西班牙语上,这证明了该方法的可行性。
Dec, 2017
本研究探讨了零资源语言的跨语言实体链接问题,利用高资源语言建立了基于字级别神经实体链接模型的枢轴式实体链接框架,实现了跨 54 种语言的零 - shot transfer,并在 9 种低资源语言上进行了实验,相比于基线系统,平均提高了 17% 的实体链接准确性。同时,文章还探讨了语言通用音韵表示的使用,在不同语言之间转移时将平均准确率提高了 36%。
Nov, 2018
本研究针对缺乏百科全书文本贡献者的问题,提出了一种基于多语言参考文章的跨语言多文档摘要生成任务,同时建立了一个基准数据集,并提出了一种基于神经网络的有监督和无监督摘要生成系统,实验表明多领域的训练要优于多语言的设置。
Mar, 2023
我们提出了一个高效的建模框架,用于半结构化文本数据中的跨语言命名实体识别。我们的方法依赖于知识蒸馏和一致性训练,并且利用预训练在源语言上的大型语言模型(XLMRoBERTa)的知识,通过学生 - 教师关系(知识蒸馏)。学生模型在低资源目标语言上采用无监督的一致性训练(使用 KL 散度损失)。我们使用两个独立的 SMS 数据集,分别是英语和阿拉伯语,每个数据集都携带有半结构化的银行交易信息,并侧重展示从英语到阿拉伯语的知识传递。通过仅使用 30 个标记样本,我们的模型可以将商家、金额和其他字段的识别从英语推广到阿拉伯语。我们的实验表明,在低资源语言的少量标记样本的情况下,学习在英语中识别实体就足以在低资源语言中达到合理的性能。该提出的框架对于开发多语言应用程序,尤其是在数字化努力依赖英语和一种或多种低资源语言的地理区域具有重要意义,有时与英语混合使用或独立使用。
Jul, 2023
提出了一种新的多语言实体链接公式,其中语言特定的提及解析为面向语言不可知的知识库。 在改进特征表示,负面挖掘和辅助实体配对任务的先前工作的基础上,我们在这个新的环境中训练了一个双编码器,以获得单个实体检索模型,它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。 这个大规模的系统面临着罕见实体和低资源语言的挑战,因此我们主张增加对零点和少量射击评估的关注。 为此,我们提供了 Mewsli-9,一个新的大型多语言数据集,帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。
Nov, 2020
本研究提出 Cross Lingual Fact Extraction(CLFE)的任务,并针对使用自然低资源语言文本提出了一种端到端生成性方法,可实现 77.46 的整体 F1 分数。
Feb, 2023