为低资源语言构建高效高效的 OpenQA 系统

Jan, 2024

为低资源语言构建高效高效的 OpenQA 系统

Building Efficient and Effective OpenQA Systems for Low-Resource Languages

Emrah Budur, Rıza Özçelik, Dilara Soylu, Omar Khattab, Tunga Güngör...

TL;DR在这篇论文中，我们展示了能够为低资源语言开发有效且成本低廉的 OpenQA 系统的关键要素，其中包括利用机器翻译标注数据的弱监督和目标语言中相关的非结构化知识源。我们以土耳其语为挑战性案例研究，通过 ColBERT-QA 对 SQuAD-TR 进行了调整来构建我们的 OpenQA 系统。在使用两个跨足两年的维基百科转储版本的基础上，我们与基于 BM25 和 DPR 的 QA 读取器模型相比，在 EM 得分上获得了 9-34% 的性能提升以及 F1 得分上的 13-33% 的性能提升。我们希望我们的结果可以鼓励研究人员在其他低资源语言中构建 OpenQA 系统，并将所有的代码、模型和数据集公开提供。

Abstract

question answering (QA) is the task of answering questions posed in natural language with free-form natural language answers extracted from a given passage. In the openqa variant, only a question text is given, a

question answering openqa low-resource languages squad-tr turkish

发现论文，激发创造

跨语言问答作为冰岛语单语开放式问答的基础

该研究提出了一种数据节约的方法，通过有限的语言资源和机器翻译的数据以及双语语言模型，针对英语以外的其他语言，构建了开放领域跨语言 QA 系统，并使用冰岛语对该系统进行了测试。

Jul, 2022

开放域问答系统综述：检索与阅读

本文综述了 OpenQA 领域的最新研究趋势，重点关注采用神经 MRC 技术的系统，介绍了现代 OpenQA 体系结构 Retriever-Reader 及采用该体系结构的各种系统，讨论了开发 OpenQA 系统面临的关键挑战，并对常用的基准进行了分析。

Jan, 2021

基于越南维基百科文本知识源的开放领域问答

这篇论文提出了 XLMRQA 作为第一个使用监督 transformer-based reader 和基于 Wikipedia 的语料库作为知识来源的越南问题回答系统，优于基于深度神经网络模型的 DrQA 和 BERTserini，同时分析了问题类型对 QA 系统性能的影响。

Apr, 2022

走向更加公平的问答系统：需要多少更多的数据？

本研究探讨如何通过自动翻译和排列组合技术将已有的数据资源应用到多语种的问答系统中，并进行深入分析和提出未来数据集开发的建议，以提高多语种问答系统的覆盖面。

May, 2021

对话式通用问题解答的多方面改进

本文提出了一种用于对话式问答的多方面改进框架，通过 KL 散度正则化、后处理程序和课程学习策略等三个方面的改进，有效地解决了开放域问答过程中的一系列问题，并在公开数据集 OR-QuAC 上展现了比同类模型更好的性能表现。

Apr, 2022

MLQA：评估跨语言抽取式问答

该研究提出了一个名为 MLQA 的多语言提取式问答（QA）评估基准，旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例，并使用一种新颖的对齐上下文策略，基于 Wikipedia 文章构建，以此作为现有提取式 QA 数据集的跨语言扩展。

Oct, 2019

神经网络阿拉伯语问答

本文介绍了一个使用维基百科作为知识来源来解决阿拉伯语开放领域事实问题回答的方法，提出了阿拉伯阅读理解数据集（ARCD），并使用预训练的双向转换器 BERT 构建了 SOQAL 系统来回答问题，实验结果表明其有效性。

Jun, 2019

UQA: 乌尔都问答语料库

介绍了 UQA，一个用于乌尔都语（Urdu）问答和文本理解的新数据集，通过一种称为 EATS 的技术，将斯坦福问答数据集（SQuAD2.0）的答案段落的翻译上下文中的答案范围进行保留，在两个候选项（Google Translator 和 Seamless M4T）中选择和评估最佳翻译模型，并对 UQA 上的几个最先进的多语言问答模型进行基准测试，其中包括 mBERT，XLM-RoBERTa 和 mT5，报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果，证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。

May, 2024

走向语义网上的问答系统

本文提出了一种基于 SPARQL 查询的多语言语义 Web 知识库问答（QA）方法，能够查询多个知识库，可轻松移植到其他知识库和语言。通过对五个不同的知识库和五种语言的评估，证明了该方法的影响。

Mar, 2018

简单有效的半监督问答

本研究提出一种利用基础文档和少量标注数据进行深度学习提取式问答的方法，并通过对三个不同领域数据集的实验验证了其有效性。

Apr, 2018