利用多语言资源进行阿拉伯语问答
本文描述了一种为个性化学习助手创建、优化和评估的问答模型,该模型使用针对阿拉伯语的 BERT transformer 进行了定制。该模型通过在巴勒斯坦课程中的科学教科书中进行优化,能够自动产生正确的科学教育问题的答案,并通过 BERT 技术的精确匹配和 F1 得分评估了模型的性能。结果显示,该模型能够理解并回答与巴勒斯坦科学教材相关的问题,展示了 BERT 问答模型在支持阿拉伯语学生的学习和理解方面的潜力。
Jun, 2024
本文描述了作者们在 OSACT5 古兰经问答大赛中的尝试,基于 BERT 模型的阿拉伯语变体,我们提出了一种集成学习模型,并进行了后处理来增强模型预测。我们的系统在官方测试集上达到了 56.6%的部分倒数排名(pRR)分数。
Jun, 2022
本文介绍了一个使用维基百科作为知识来源来解决阿拉伯语开放领域事实问题回答的方法,提出了阿拉伯阅读理解数据集(ARCD),并使用预训练的双向转换器 BERT 构建了 SOQAL 系统来回答问题,实验结果表明其有效性。
Jun, 2019
使用语言特定的 BERT 模型预训练,构建了 AraBERT 模型,以在阿拉伯语 NLP 任务方面实现最先进的表现。
Feb, 2020
介绍了 UQA,一个用于乌尔都语(Urdu)问答和文本理解的新数据集,通过一种称为 EATS 的技术,将斯坦福问答数据集(SQuAD2.0)的答案段落的翻译上下文中的答案范围进行保留,在两个候选项(Google Translator 和 Seamless M4T)中选择和评估最佳翻译模型,并对 UQA 上的几个最先进的多语言问答模型进行基准测试,其中包括 mBERT,XLM-RoBERTa 和 mT5,报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果,证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。
May, 2024
本文提出一种用于低资源语言的提高问答技术的方法,即通过翻译和转写将问题回答样本扩充到目标语言,利用增广数据微调已经在英语中预训练的 mBERT 问答模型,并引入对翻译问题上下文特征对之间的对比损失来提高不同语言家族的翻译准确性。
Apr, 2022
我们提出了一种处理古兰经 QA 2023 共享任务 A 和 B 的方法,通过迁移学习和投票集成来提高预测的稳定性。此外,我们针对两个任务使用不同的架构和学习机制,采用一系列基于阿拉伯语预训练变换器的模型。我们提出了一种阈值机制来识别无法回答的问题。在隐藏拆分上,我们的最佳系统大大超过基准性能,A 任务 MAP 得分为 25.05%,B 任务部分平均精度 (pAP) 为 57.11%。
Jan, 2024
本文主要研究阿拉伯语文本数据的分类,特别关注自然语言推理和矛盾检测。通过创建专用数据集并利用语言学上知识进行预训练,发现了具有竞争力的阿拉伯语特定模型(AraBERT),并成功应用于大规模任务评估及多任务预训练的首个阿拉伯语背景应用。
Jul, 2023
本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对 BERT 进行预训练,旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用,也证明了更多的数据或更多的训练步骤并不能保证更好的模型,最终得到的 QARiB 模型在一些下游任务中取得了最新的最佳结果。
Feb, 2021
通过最新的神经信息检索方法,我们研究了如何更高效地处理阿拉伯语和英语的古兰经信息检索问题。通过在大量通用领域数据上进行训练,然后在特定领域数据上继续训练,并采用数据增强技术,我们取得了在 MRR@10 和 NDCG@5 指标上明显改善的成果,为英语和阿拉伯语的古兰经信息检索设立了新的技术标杆。
Dec, 2023