Qur'an QA 2022 中的 TCE:使用基于 BERT 的模型的加工集成进行古兰经阿拉伯语问答
我们提出了一种处理古兰经 QA 2023 共享任务 A 和 B 的方法,通过迁移学习和投票集成来提高预测的稳定性。此外,我们针对两个任务使用不同的架构和学习机制,采用一系列基于阿拉伯语预训练变换器的模型。我们提出了一种阈值机制来识别无法回答的问题。在隐藏拆分上,我们的最佳系统大大超过基准性能,A 任务 MAP 得分为 25.05%,B 任务部分平均精度 (pAP) 为 57.11%。
Jan, 2024
本文介绍了一个使用维基百科作为知识来源来解决阿拉伯语开放领域事实问题回答的方法,提出了阿拉伯阅读理解数据集(ARCD),并使用预训练的双向转换器 BERT 构建了 SOQAL 系统来回答问题,实验结果表明其有效性。
Jun, 2019
本文描述了一种为个性化学习助手创建、优化和评估的问答模型,该模型使用针对阿拉伯语的 BERT transformer 进行了定制。该模型通过在巴勒斯坦课程中的科学教科书中进行优化,能够自动产生正确的科学教育问题的答案,并通过 BERT 技术的精确匹配和 F1 得分评估了模型的性能。结果显示,该模型能够理解并回答与巴勒斯坦科学教材相关的问题,展示了 BERT 问答模型在支持阿拉伯语学生的学习和理解方面的潜力。
Jun, 2024
使用语言特定的 BERT 模型预训练,构建了 AraBERT 模型,以在阿拉伯语 NLP 任务方面实现最先进的表现。
Feb, 2020
本研究通过迁移学习和集成学习等策略,利用已有的阿拉伯语 MRC 数据,实现了对 Qur'an QA 2022 共享任务的有效问答和阅读理解,pRR 评分为 0.49。
May, 2022
这项研究提出了一个创新的阿拉伯语问题生成系统,通过关键词和关键短语提取、问题生成和后续排名的三个阶段来解决自动生成阿拉伯语评估问题所面临的困难。提出的方法和结果表明精确度为 83.50%,召回率为 78.68%,F1 得分为 80.95%,显示出该框架的高效性。人工评估进一步证实了模型的效率,获得了 84% 的平均评分。
Jun, 2024
介绍了 UQA,一个用于乌尔都语(Urdu)问答和文本理解的新数据集,通过一种称为 EATS 的技术,将斯坦福问答数据集(SQuAD2.0)的答案段落的翻译上下文中的答案范围进行保留,在两个候选项(Google Translator 和 Seamless M4T)中选择和评估最佳翻译模型,并对 UQA 上的几个最先进的多语言问答模型进行基准测试,其中包括 mBERT,XLM-RoBERTa 和 mT5,报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果,证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。
May, 2024
本文介绍了 ArabicaQA,这是第一个用于阿拉伯语机器阅读理解和开放域问题回答的大规模数据集,包含了 89095 个可回答和 3701 个无法回答的问题,以及其他标记的开放域问题。同时还介绍了 AraDPR,这是第一个针对阿拉伯文本检索的密集段落检索模型,经过阿拉伯维基百科语料库的训练,专门用于解决阿拉伯文本检索中的独特挑战。此外,我们还对大型语言模型在阿拉伯语问题回答中进行了广泛的基准测试,并对其在阿拉伯语环境中的性能进行了批判性评估。总之,ArabicaQA、AraDPR 和在阿拉伯语问题回答中的语言模型基准测试为阿拉伯语自然语言处理领域带来了重要的进展。数据集和代码对于进一步研究都是公开可访问的。
Mar, 2024
研发了一种《古兰经语义搜索工具》,通过在超过 30 个《注释》数据集上训练多个模型,使用余弦相似度,在 Quran 中找到与用户查询或提示相关的经文。使用 SNxLM 模型,能够获得高达 0.97 的余弦相似度分数,与财务事务相关的经文对应的注释是 abdu。
Nov, 2023