通用语言建模代理
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
研发了一种《古兰经语义搜索工具》,通过在超过 30 个《注释》数据集上训练多个模型,使用余弦相似度,在 Quran 中找到与用户查询或提示相关的经文。使用 SNxLM 模型,能够获得高达 0.97 的余弦相似度分数,与财务事务相关的经文对应的注释是 abdu。
Nov, 2023
我们提出了一个理论框架,用于分析无平行数据可用且源语料库与目标语料库不相干或具有相似语言结构时的 UMT,并且研究表明翻译准确性取决于源语言的复杂性和源语言与目标先验之间的 “共同基础”。
Nov, 2022
构建与伊斯兰世界观一致的领域特定大型语言模型 (Large Language Models) 的挑战、解决方案和评估方法的研究。
Dec, 2023
本文描述了作者们在 OSACT5 古兰经问答大赛中的尝试,基于 BERT 模型的阿拉伯语变体,我们提出了一种集成学习模型,并进行了后处理来增强模型预测。我们的系统在官方测试集上达到了 56.6%的部分倒数排名(pRR)分数。
Jun, 2022
该研究致力于解决阿拉伯地区数据稀缺的问题,以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据,经过严格的清洗和去重处理,形成了迄今为止最大的 1010 亿阿拉伯词汇数据集,这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力,还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。
Apr, 2024
通过提供三种新的阿拉伯 BERT 模型 (JABER、Char-JABER 和 SABER) 和两种新的 T5 模型 (AT5S 和 AT5B),并在包括 ALUE 在内的阿拉伯自然语言理解任务和 ARGEN 基准子集上实验性地对现有最先进模型的表现进行了系统性评估,得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势,并达到了新的最先进性能。
May, 2022