Qur'an QA 2022 中的 TCE：使用基于 BERT 的模型的加工集成进行古兰经阿拉伯语问答

Jun, 2022

Qur'an QA 2022 中的 TCE：使用基于 BERT 的模型的加工集成进行古兰经阿拉伯语问答

TCE at Qur'an QA 2022: Arabic Language Question Answering Over Holy Qur'an Using a Post-Processed Ensemble of BERT-based Models

PDF

Mohammed ElKomy, Amany M. Sarhan

TL;DR本文描述了作者们在 OSACT5 古兰经问答大赛中的尝试，基于 BERT 模型的阿拉伯语变体，我们提出了一种集成学习模型，并进行了后处理来增强模型预测。我们的系统在官方测试集上达到了 56.6％的部分倒数排名（pRR）分数。

Abstract

In recent years, we witnessed great progress in different tasks of natural language understanding using machine learning. question answering is one of these tasks which is used by search engines and social media platforms for improved user experience. →

question answering arabic natural language processing ensemble learning model bert models

发现论文，激发创造

基于 Transformer 的低资源增强集成方法在古兰经问答 2023 共享任务中的应用

我们提出了一种处理古兰经 QA 2023 共享任务 A 和 B 的方法，通过迁移学习和投票集成来提高预测的稳定性。此外，我们针对两个任务使用不同的架构和学习机制，采用一系列基于阿拉伯语预训练变换器的模型。我们提出了一种阈值机制来识别无法回答的问题。在隐藏拆分上，我们的最佳系统大大超过基准性能，A 任务 MAP 得分为 25.05％，B 任务部分平均精度 (pAP) 为 57.11％。

Jan, 2024

神经网络阿拉伯语问答

本文介绍了一个使用维基百科作为知识来源来解决阿拉伯语开放领域事实问题回答的方法，提出了阿拉伯阅读理解数据集（ARCD），并使用预训练的双向转换器 BERT 构建了 SOQAL 系统来回答问题，实验结果表明其有效性。

Jun, 2019

利用多语言资源进行阿拉伯语问答

使用基于 BERT 的多语言模型并利用领域特定的大型阿拉伯语语料库，训练两个 BERT 模型实现确定问题答案起始位置和可行答案的排序。

May, 2022

一个针对阿拉伯语个性化学习助手的问答模型

本文描述了一种为个性化学习助手创建、优化和评估的问答模型，该模型使用针对阿拉伯语的 BERT transformer 进行了定制。该模型通过在巴勒斯坦课程中的科学教科书中进行优化，能够自动产生正确的科学教育问题的答案，并通过 BERT 技术的精确匹配和 F1 得分评估了模型的性能。结果显示，该模型能够理解并回答与巴勒斯坦科学教材相关的问题，展示了 BERT 问答模型在支持阿拉伯语学生的学习和理解方面的潜力。

Jun, 2024

AraBERT：基于 Transformer 的阿拉伯语语言理解模型

使用语言特定的 BERT 模型预训练，构建了 AraBERT 模型，以在阿拉伯语 NLP 任务方面实现最先进的表现。

Feb, 2020

2022 年古兰经问题回答中的转移学习与变形金刚

本研究通过迁移学习和集成学习等策略，利用已有的阿拉伯语 MRC 数据，实现了对 Qur'an QA 2022 共享任务的有效问答和阅读理解，pRR 评分为 0.49。

May, 2022

利用 NLP 技术自动生成阿拉伯语科学测试的问题

这项研究提出了一个创新的阿拉伯语问题生成系统，通过关键词和关键短语提取、问题生成和后续排名的三个阶段来解决自动生成阿拉伯语评估问题所面临的困难。提出的方法和结果表明精确度为 83.50%，召回率为 78.68%，F1 得分为 80.95%，显示出该框架的高效性。人工评估进一步证实了模型的效率，获得了 84% 的平均评分。

Jun, 2024

UQA: 乌尔都问答语料库

介绍了 UQA，一个用于乌尔都语（Urdu）问答和文本理解的新数据集，通过一种称为 EATS 的技术，将斯坦福问答数据集（SQuAD2.0）的答案段落的翻译上下文中的答案范围进行保留，在两个候选项（Google Translator 和 Seamless M4T）中选择和评估最佳翻译模型，并对 UQA 上的几个最先进的多语言问答模型进行基准测试，其中包括 mBERT，XLM-RoBERTa 和 mT5，报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果，证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。

May, 2024

ArabicaQA: 阿拉伯问答系统的综合数据集

本文介绍了 ArabicaQA，这是第一个用于阿拉伯语机器阅读理解和开放域问题回答的大规模数据集，包含了 89095 个可回答和 3701 个无法回答的问题，以及其他标记的开放域问题。同时还介绍了 AraDPR，这是第一个针对阿拉伯文本检索的密集段落检索模型，经过阿拉伯维基百科语料库的训练，专门用于解决阿拉伯文本检索中的独特挑战。此外，我们还对大型语言模型在阿拉伯语问题回答中进行了广泛的基准测试，并对其在阿拉伯语环境中的性能进行了批判性评估。总之，ArabicaQA、AraDPR 和在阿拉伯语问题回答中的语言模型基准测试为阿拉伯语自然语言处理领域带来了重要的进展。数据集和代码对于进一步研究都是公开可访问的。

Mar, 2024

古兰经对话：利用阿拉伯自然语言处理技术开发古兰经的语义搜索工具

研发了一种《古兰经语义搜索工具》，通过在超过 30 个《注释》数据集上训练多个模型，使用余弦相似度，在 Quran 中找到与用户查询或提示相关的经文。使用 SNxLM 模型，能够获得高达 0.97 的余弦相似度分数，与财务事务相关的经文对应的注释是 abdu。

Nov, 2023