神经网络阿拉伯语问答

Jun, 2019

Neural Arabic Question Answering

Hussein Mozannar, Karl El Hajal, Elie Maamary, Hazem Hajj

TL;DR本文介绍了一个使用维基百科作为知识来源来解决阿拉伯语开放领域事实问题回答的方法，提出了阿拉伯阅读理解数据集（ARCD），并使用预训练的双向转换器 BERT 构建了 SOQAL 系统来回答问题，实验结果表明其有效性。

Abstract

This paper tackles the problem of open domain factual arabic question answering (QA) using wikipedia as our knowledge source. This constrains the answer of any question to be a span of text in →

open domain qa arabic wikipedia arcd bert

发现论文，激发创造

ArabicaQA: 阿拉伯问答系统的综合数据集

本文介绍了 ArabicaQA，这是第一个用于阿拉伯语机器阅读理解和开放域问题回答的大规模数据集，包含了 89095 个可回答和 3701 个无法回答的问题，以及其他标记的开放域问题。同时还介绍了 AraDPR，这是第一个针对阿拉伯文本检索的密集段落检索模型，经过阿拉伯维基百科语料库的训练，专门用于解决阿拉伯文本检索中的独特挑战。此外，我们还对大型语言模型在阿拉伯语问题回答中进行了广泛的基准测试，并对其在阿拉伯语环境中的性能进行了批判性评估。总之，ArabicaQA、AraDPR 和在阿拉伯语问题回答中的语言模型基准测试为阿拉伯语自然语言处理领域带来了重要的进展。数据集和代码对于进一步研究都是公开可访问的。

Mar, 2024

使用维基百科回答开放领域问题

本文提出使用维基百科作为唯一知识源来解决开放领域问题回答，提出了一种基于大二元哈希和 TF-IDF 匹配的搜索组件与训练于维基段落中检测答案的多层循环神经网络模型的结合方法，同时现有数据集的实验结果表明，这两个模块都是高度竞争力的，并且使用远程监督进行多任务学习的组合是这个具有挑战性任务的有效完整系统。

Mar, 2017

Qur'an QA 2022 中的 TCE：使用基于 BERT 的模型的加工集成进行古兰经阿拉伯语问答

本文描述了作者们在 OSACT5 古兰经问答大赛中的尝试，基于 BERT 模型的阿拉伯语变体，我们提出了一种集成学习模型，并进行了后处理来增强模型预测。我们的系统在官方测试集上达到了 56.6％的部分倒数排名（pRR）分数。

Jun, 2022

一个针对阿拉伯语个性化学习助手的问答模型

本文描述了一种为个性化学习助手创建、优化和评估的问答模型，该模型使用针对阿拉伯语的 BERT transformer 进行了定制。该模型通过在巴勒斯坦课程中的科学教科书中进行优化，能够自动产生正确的科学教育问题的答案，并通过 BERT 技术的精确匹配和 F1 得分评估了模型的性能。结果显示，该模型能够理解并回答与巴勒斯坦科学教材相关的问题，展示了 BERT 问答模型在支持阿拉伯语学生的学习和理解方面的潜力。

Jun, 2024

开放域问答系统综述：检索与阅读

本文综述了 OpenQA 领域的最新研究趋势，重点关注采用神经 MRC 技术的系统，介绍了现代 OpenQA 体系结构 Retriever-Reader 及采用该体系结构的各种系统，讨论了开发 OpenQA 系统面临的关键挑战，并对常用的基准进行了分析。

Jan, 2021

为低资源语言构建高效高效的 OpenQA 系统

在这篇论文中，我们展示了能够为低资源语言开发有效且成本低廉的 OpenQA 系统的关键要素，其中包括利用机器翻译标注数据的弱监督和目标语言中相关的非结构化知识源。我们以土耳其语为挑战性案例研究，通过 ColBERT-QA 对 SQuAD-TR 进行了调整来构建我们的 OpenQA 系统。在使用两个跨足两年的维基百科转储版本的基础上，我们与基于 BM25 和 DPR 的 QA 读取器模型相比，在 EM 得分上获得了 9-34% 的性能提升以及 F1 得分上的 13-33% 的性能提升。我们希望我们的结果可以鼓励研究人员在其他低资源语言中构建 OpenQA 系统，并将所有的代码、模型和数据集公开提供。

Jan, 2024

利用多语言资源进行阿拉伯语问答

使用基于 BERT 的多语言模型并利用领域特定的大型阿拉伯语语料库，训练两个 BERT 模型实现确定问题答案起始位置和可行答案的排序。

May, 2022

UQA: 乌尔都问答语料库

介绍了 UQA，一个用于乌尔都语（Urdu）问答和文本理解的新数据集，通过一种称为 EATS 的技术，将斯坦福问答数据集（SQuAD2.0）的答案段落的翻译上下文中的答案范围进行保留，在两个候选项（Google Translator 和 Seamless M4T）中选择和评估最佳翻译模型，并对 UQA 上的几个最先进的多语言问答模型进行基准测试，其中包括 mBERT，XLM-RoBERTa 和 mT5，报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果，证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。

May, 2024

用于开放领域事实性问题回答的数据集和神经循环序列标注模型

本文提出一个大规模的人工标注真实世界 QA 数据集 WebQA，通过序列标注模型将神经 QA 视为序列标注问题，与现有神经 QA 方法相比，性能大幅度提高，F1 得分为 74.69％。

Jul, 2016

基于越南维基百科文本知识源的开放领域问答

这篇论文提出了 XLMRQA 作为第一个使用监督 transformer-based reader 和基于 Wikipedia 的语料库作为知识来源的越南问题回答系统，优于基于深度神经网络模型的 DrQA 和 BERTserini，同时分析了问题类型对 QA 系统性能的影响。

Apr, 2022