基于阅读理解的跨语言知识库问答

Feb, 2023

基于阅读理解的跨语言知识库问答

Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension

Chen Zhang, Yuxuan Lai, Yansong Feng, Xingyu Shen, Haowei Du...

TL;DR该研究对多语言信息处理领域中的跨语言问答问题进行了研究：提出了一种基于阅读理解范式的知识库子图到问题的转换方法，利用汽车预训练语言模型和跨语言阅读理解技术进行跨语言阅读理解，基于现有的高质量跨语言阅读理解数据集进一步优化模型，为跨语言问答领域提供了一种有效、高效的方法。

Abstract

Although many large-scale knowledge bases (KBs) claim to contain multilingual information, their support for many non-English languages is often incomplete. This incompleteness gives birth to the task of cross-lingual question answering over →

发现论文，激发创造

MLQA：评估跨语言抽取式问答

该研究提出了一个名为MLQA的多语言提取式问答（QA）评估基准，旨在推动跨语言QA研究。 MLQA包含7种语言的QA实例，并使用一种新颖的对齐上下文策略，基于Wikipedia文章构建，以此作为现有提取式QA数据集的跨语言扩展。

Oct, 2019

MKQA：面向多语言开放域问题回答的语言多样性基准测试

研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”（MKQA），包括10k个问题-答案对，跨越26种语言（总计260k个问题-答案对）。结果表明，即使在英语中，这个数据集也具有挑战性，尤其是在低资源语言中。

Jul, 2020

XOR QA：跨语言开放检索问答

通过使用跨语言开放检索问题回答，扩展多语言问答任务，解决信息匮乏和信息不对称问题。在 TyDi QA 上构建了一个大规模数据集，并建立了三个跨语言文档检索任务的基线。利用机器翻译系统和跨语言预训练模型，在实验中得出 XOR QA 是一个具有挑战性的任务，将促进多语言问答技术的开发。

Oct, 2020

跨语言密集文段检索的多语言问答模型

本研究提出 Cross-lingual Open-Retrieval Answer Generation (CORA) 模型，它是第一个可以回答跨多种语言问题的问答模型，利用密集型检索算法，与多语言自回归生成模型相结合，即可实现直接在目标语言下回答问题，获得了显著的效果提升，特别是在低资源环境下。

Jul, 2021

ZusammenQA：专用模型数据增强的跨语言开放检索问答系统

该论文提出了一种用于COQA多语言问题解答的系统，该系统使用多种模型变体在数据增强、语段检索和答案生成三个主要组件上进行了研究，并结合语言模型预训练和数据增强等方法有效提高了针对低资源语言的表现。

May, 2022

跨越语言障碍：注入知识的多语言问答系统

本论文提出了一种基于广义跨语言转移的框架，可以增强模型理解不同语言的能力，通过不同语言组成多语言知识三元组，并通过链接预测技术设计一种知识注入策略，从而深入挖掘丰富的语义知识；实验结果表明，该方法可以大幅提高性能。

Apr, 2023

跨语言产品问答：12种语言

该研究致力于针对电子商务应用中需要支持多语言的情况，建立一种跨语言的产品问答(PQA)系统，为了实现这一目标，它提出了一个包括12种语言在九个领域中的大规模标注跨语言PQA数据集，并评估了包括机器翻译在内的多种方法。作者强调，领域内的数据对跨语言排序任务非常重要，而候选的排序通常更喜欢基于运行时翻译的方法，而答案的生成更倾向于使用多语言方法，但是英语和跨语言测试集之间仍存在明显的性能差距。

May, 2023

低资源语言下跨语言知识蒸馏的答案句子选择

本文提出了一种名为Cross-Lingual Knowledge Distillation (CLKD)的方法，使用强大的英文Answer Sentence Selection（AS2）模型作为老师进行跨语言知识蒸馏，可用于训练对于标注数据有限的低资源语言的AS2模型。作者还介绍了两个多语言数据集进行了实证研究，通过多次实验验证，CLKD方法在不用标注数据的情况下，可与使用相同数量标注数据的监督微调方法相媲美，具有潜力为低资源语言提供更强大的AS2模型，同时这两个多语言数据集能够在AS2领域进行更广泛的研究。

May, 2023

通过自我知识蒸馏促进少资源场景下的通用跨语言问答

我们提出了一种实用的解决方案，通过高效利用有限的数据资源，改善跨语言问答的转移能力。

Sep, 2023

共享、教学与对齐：熟知的跨语言机器阅读理解的知识迁移

本文提出了一种新的跨语言机器阅读理解方法X-STA，利用关注力机制和知识共享技术实现源语言答案转移到目标答案空间，并通过语义对齐和教师引导来增强跨语言迁移能力，实验证明了该方法在多种多语言机器阅读理解数据集上的有效性。

Nov, 2023