LEIA:基于实体数据增强的语言模型跨语言知识迁移促进
此篇论文研究了如何利用来自 Wikipedia 实体的跨语言对齐信息来提高多语言预训练语言模型的效果,并探索了在下游跨语言任务中使用实体表示方法的有效性。
Oct, 2021
通过在语言模型中建立语义对齐,该研究提出了一种在英语以外的语言中增强指令调整型大型语言模型(It-LLMs)的方法,通过交叉语言指导和翻译指导演示,提高语义对齐,并在六种不同语言上的多语言问答基准测试中验证其方法的效果。
Aug, 2023
通过比较两种数据技术(跨语言转移和机器翻译),研究发现,使用英文数据训练的跨语言转移和使用英文数据转换为伪非英文训练数据的机器翻译在日语和韩语的单语 STS 上表现相当。此外,研究还发现 Wikipedia 领域在这些语言上优于 NLI 领域,并结合这些发现实验表明,跨语言转移 Wikipedia 数据能够提高单语 STS 的性能。
Mar, 2024
介绍了一种名为 XLDA 的跨语言数据增强方法,该方法通过替换输入文本中的部分内容为另一种语言的翻译来改善跨语言自然语言推理任务的性能,在 14 种语言的测试中均获得了提升,并在希腊语、土耳其语和乌尔都语方面取得了最好的性能,且远优于其他方法。
May, 2019
本文提出一种神经实体链接模型,通过多种角度训练查询和候选文档之间的细粒度相似性和不相似性,并结合卷积和张量网络,在多语言语境下实现跨语言实体链接,并证明该英文训练的系统可以通过使用多语言嵌入进行零 - shot 学习。该提议系统在英语以及跨语言测试中取得 state-of-the-art 的结果 (例如:西班牙语和汉语 TAC 的 2015 数据集)。
Dec, 2017
本文探索了提高多语言问题回答的交叉语言转移性能的策略,包括使用机器翻译生成的数据来增强原始英语训练数据,以及提出两种新颖的策略:语言对抗性训练和语言仲裁框架,这些策略显著提高了零资源的交叉语言转移性能,并导致 LM 嵌入不那么语言特定的结果。经验证明,这些模型在最近推出的 multilingual MLQA 和 TyDiQA 数据集上优于以前的零 - shot 基线。
Dec, 2020
通过建立语言间的语义对齐,提出通过使用非英语训练数据来增强预训练大型语言模型在非英语语言上的能力,并通过实验结果证明此方法在六种非英语语言上超过英语模型 42.50%,在汉语人文任务上超过英语模型 8.2%。同时发现,使用非英语文本作为翻译数据的目标端特别有效,且随着翻译任务数据规模的扩大,语言模型内部的语义对齐能够进一步加强。
Aug, 2023
提出了一种新的多语言实体链接公式,其中语言特定的提及解析为面向语言不可知的知识库。 在改进特征表示,负面挖掘和辅助实体配对任务的先前工作的基础上,我们在这个新的环境中训练了一个双编码器,以获得单个实体检索模型,它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。 这个大规模的系统面临着罕见实体和低资源语言的挑战,因此我们主张增加对零点和少量射击评估的关注。 为此,我们提供了 Mewsli-9,一个新的大型多语言数据集,帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。
Nov, 2020
该研究提出了一种基于大型语言模型增强的实体对齐框架(LLMEA),将知识图谱的结构知识与大型语言模型的语义知识相结合,以提升实体对齐的效果。实验结果表明,LLMEA 优于其他基线模型,进一步剖析试验证实了我们提出框架的效能。
Jan, 2024