基于阅读理解的跨语言知识库问答
该研究提出了一个名为MLQA的多语言提取式问答(QA)评估基准,旨在推动跨语言QA研究。 MLQA包含7种语言的QA实例,并使用一种新颖的对齐上下文策略,基于Wikipedia文章构建,以此作为现有提取式QA数据集的跨语言扩展。
Oct, 2019
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”(MKQA),包括10k个问题-答案对,跨越26种语言(总计260k个问题-答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
通过使用跨语言开放检索问题回答,扩展多语言问答任务,解决信息匮乏和信息不对称问题。在 TyDi QA 上构建了一个大规模数据集,并建立了三个跨语言文档检索任务的基线。利用机器翻译系统和跨语言预训练模型,在实验中得出 XOR QA 是一个具有挑战性的任务,将促进多语言问答技术的开发。
Oct, 2020
本研究提出 Cross-lingual Open-Retrieval Answer Generation (CORA) 模型,它是第一个可以回答跨多种语言问题的问答模型,利用密集型检索算法,与多语言自回归生成模型相结合,即可实现直接在目标语言下回答问题,获得了显著的效果提升,特别是在低资源环境下。
Jul, 2021
该论文提出了一种用于COQA多语言问题解答的系统,该系统使用多种模型变体在数据增强、语段检索和答案生成三个主要组件上进行了研究,并结合语言模型预训练和数据增强等方法有效提高了针对低资源语言的表现。
May, 2022
本论文提出了一种基于广义跨语言转移的框架,可以增强模型理解不同语言的能力,通过不同语言组成多语言知识三元组,并通过链接预测技术设计一种知识注入策略,从而深入挖掘丰富的语义知识;实验结果表明,该方法可以大幅提高性能。
Apr, 2023
该研究致力于针对电子商务应用中需要支持多语言的情况,建立一种跨语言的产品问答(PQA)系统,为了实现这一目标,它提出了一个包括12种语言在九个领域中的大规模标注跨语言PQA数据集,并评估了包括机器翻译在内的多种方法。作者强调,领域内的数据对跨语言排序任务非常重要,而候选的排序通常更喜欢基于运行时翻译的方法,而答案的生成更倾向于使用多语言方法,但是英语和跨语言测试集之间仍存在明显的性能差距。
May, 2023
本文提出了一种名为Cross-Lingual Knowledge Distillation (CLKD)的方法,使用强大的英文Answer Sentence Selection(AS2)模型作为老师进行跨语言知识蒸馏,可用于训练对于标注数据有限的低资源语言的AS2模型。作者还介绍了两个多语言数据集进行了实证研究,通过多次实验验证,CLKD方法在不用标注数据的情况下,可与使用相同数量标注数据的监督微调方法相媲美,具有潜力为低资源语言提供更强大的AS2模型,同时这两个多语言数据集能够在AS2领域进行更广泛的研究。
May, 2023
本文提出了一种新的跨语言机器阅读理解方法X-STA,利用关注力机制和知识共享技术实现源语言答案转移到目标答案空间,并通过语义对齐和教师引导来增强跨语言迁移能力,实验证明了该方法在多种多语言机器阅读理解数据集上的有效性。
Nov, 2023