Jan, 2024

为低资源语言构建高效高效的 OpenQA 系统

TL;DR在这篇论文中,我们展示了能够为低资源语言开发有效且成本低廉的 OpenQA 系统的关键要素,其中包括利用机器翻译标注数据的弱监督和目标语言中相关的非结构化知识源。我们以土耳其语为挑战性案例研究,通过 ColBERT-QA 对 SQuAD-TR 进行了调整来构建我们的 OpenQA 系统。在使用两个跨足两年的维基百科转储版本的基础上,我们与基于 BM25 和 DPR 的 QA 读取器模型相比,在 EM 得分上获得了 9-34% 的性能提升以及 F1 得分上的 13-33% 的性能提升。我们希望我们的结果可以鼓励研究人员在其他低资源语言中构建 OpenQA 系统,并将所有的代码、模型和数据集公开提供。