跨语言问答作为冰岛语单语开放式问答的基础
该研究提出了一个名为 MLQA 的多语言提取式问答(QA)评估基准,旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例,并使用一种新颖的对齐上下文策略,基于 Wikipedia 文章构建,以此作为现有提取式 QA 数据集的跨语言扩展。
Oct, 2019
在这篇论文中,我们展示了能够为低资源语言开发有效且成本低廉的 OpenQA 系统的关键要素,其中包括利用机器翻译标注数据的弱监督和目标语言中相关的非结构化知识源。我们以土耳其语为挑战性案例研究,通过 ColBERT-QA 对 SQuAD-TR 进行了调整来构建我们的 OpenQA 系统。在使用两个跨足两年的维基百科转储版本的基础上,我们与基于 BM25 和 DPR 的 QA 读取器模型相比,在 EM 得分上获得了 9-34% 的性能提升以及 F1 得分上的 13-33% 的性能提升。我们希望我们的结果可以鼓励研究人员在其他低资源语言中构建 OpenQA 系统,并将所有的代码、模型和数据集公开提供。
Jan, 2024
该研究致力于针对电子商务应用中需要支持多语言的情况,建立一种跨语言的产品问答 (PQA) 系统,为了实现这一目标,它提出了一个包括 12 种语言在九个领域中的大规模标注跨语言 PQA 数据集,并评估了包括机器翻译在内的多种方法。作者强调,领域内的数据对跨语言排序任务非常重要,而候选的排序通常更喜欢基于运行时翻译的方法,而答案的生成更倾向于使用多语言方法,但是英语和跨语言测试集之间仍存在明显的性能差距。
May, 2023
通过使用跨语言开放检索问题回答,扩展多语言问答任务,解决信息匮乏和信息不对称问题。在 TyDi QA 上构建了一个大规模数据集,并建立了三个跨语言文档检索任务的基线。利用机器翻译系统和跨语言预训练模型,在实验中得出 XOR QA 是一个具有挑战性的任务,将促进多语言问答技术的开发。
Oct, 2020
本文探索了提高多语言问题回答的交叉语言转移性能的策略,包括使用机器翻译生成的数据来增强原始英语训练数据,以及提出两种新颖的策略:语言对抗性训练和语言仲裁框架,这些策略显著提高了零资源的交叉语言转移性能,并导致 LM 嵌入不那么语言特定的结果。经验证明,这些模型在最近推出的 multilingual MLQA 和 TyDiQA 数据集上优于以前的零 - shot 基线。
Dec, 2020
本文提出了一种利用现有平行语料库进行间接监督的跨语言问答(QA)的合成数据生成方法,并使用词汇约束的机器翻译提高翻译质量,生成了跨越 4 种语言的 662K QA 样例数据集,并通过消融研究证明了该方法相对于自动单词对齐的噪声比较稳健。
Apr, 2023
本研究探讨如何通过自动翻译和排列组合技术将已有的数据资源应用到多语种的问答系统中,并进行深入分析和提出未来数据集开发的建议,以提高多语种问答系统的覆盖面。
May, 2021
本论文聚焦于在多语言环境下推进处理末端用户问题的 QA 技术,涉及多语性和混编等问题并提出了一种多文档利用的多跳问题生成技术,实验证明该方法可在 MQA、VQA 和语言生成等多个领域和语言中达到最先进的表现,是通用的,可用于提高 QA 系统性能。
Nov, 2022
研究单语和多语言语言模型在英语、芬兰语和日语问答任务中的表现,并开发用于判断问题是否可回答和标识上下文中答案的模型,并尝试评估预训练的多语言编码器(Multilingual BERT)在跨语言零 - shot 学习中的效果。
Dec, 2022
本文提出了 xGQA,一个用于跨语言视觉问答任务的新的多语言评估基准,并使用适配器方法将多模型变换器模型扩展为多语言模型,结果表明简单的跨语言模型转移会导致多语言多模态失配,需要更复杂的方法来进行跨语言视觉和多语言语言建模
Sep, 2021