使用语言特定的 BERT 模型预训练,构建了 AraBERT 模型,以在阿拉伯语 NLP 任务方面实现最先进的表现。
Feb, 2020
本文介紹了 AraLegal-BERT 模型,評估其對於阿拉伯法律文件的表現。結果證明該模型在自然語言理解 (NLU) 任務上比一般的 BERT 及原始版本表現更為準確。
Oct, 2022
通过提供三种新的阿拉伯 BERT 模型 (JABER、Char-JABER 和 SABER) 和两种新的 T5 模型 (AT5S 和 AT5B),并在包括 ALUE 在内的阿拉伯自然语言理解任务和 ARGEN 基准子集上实验性地对现有最先进模型的表现进行了系统性评估,得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势,并达到了新的最先进性能。
May, 2022
本文介绍了 AraBART,这是第一个使用 BART 预训练技术进行端到端预训练的阿拉伯语模型,通过在多个抽象摘要数据集上的测试,显示 AraBART 在摘要生成方面具有较好的性能,超过了类似的基线模型。
Mar, 2022
本文介绍了一种名为 Ashaar 的框架,它包括一系列数据集和预训练模型,旨在分析和生成阿拉伯诗歌,并探索生成条件诗歌的可行性,为阿拉伯诗歌领域的研究和发展提供了数据集。
Jul, 2023
本文介绍了一个多种语言诗歌首款多语言预训练大型语言模型 ALBERTI,通过专门领域预训练,对来自 12 种语言的 1200 万诗句语料库进行训练,表现出色,达到了德语的最新水平
本文主要研究阿拉伯语文本数据的分类,特别关注自然语言推理和矛盾检测。通过创建专用数据集并利用语言学上知识进行预训练,发现了具有竞争力的阿拉伯语特定模型(AraBERT),并成功应用于大规模任务评估及多任务预训练的首个阿拉伯语背景应用。
本研究旨在解决目前英语和拉丁语为主导的大型语言模型 (LLMs) 中,对于阿拉伯语母语的阿拉伯 LLMs 的缺乏问题。通过提出 ArabianGPT 系列模型,结合 AraNizer 分词工具和微调技术,有效改进了阿拉伯语自然语言处理的准确性和性能。
Feb, 2024
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
本文提出了两个基于深度双向变压器的模型 ARBERT 和 MARBERT,并引入了一个针对多语言阿拉伯语理解评估的基准 ARLUE。在 42 个数据集上进行了一系列基准实验,结果表明将这两种模型细化后在大多数任务上取得了最先进的结果并提供了公共可用的模型。
Dec, 2020