101 亿阿拉伯语词汇数据集
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
本研究旨在建立一份当代阿拉伯文语料库,收集了包括 8 个阿拉伯国家 10 个主要新闻来源的报纸文章,共计超过 5 百万篇文章,包含 15 亿个单词,标记了 SGML 和 XML 两种标记语言,并使用 UTF-8 和 Windows CP-1256 两种编码格式。
Nov, 2016
在阿拉伯法律分析领域中,我们的研究通过使用现有最先进的大型语言模型,全面预测了一批基于商业法庭真实案例的阿拉伯法院判决。通过评估不同预训练模型和训练方法的性能,并采用不同的评估指标,我们发现基于 GPT-3.5 的模型在所有模型中表现最佳,超过专门针对阿拉伯文的 JAIS 模型平均得分的 50%。同时,我们还发现大语言模型在法院判决预测中的性能评估除了人工评估之外的其他指标都是不一致且不可靠的。本研究为未来的研究奠定了基础,弥合计算语言学与阿拉伯法律分析之间的差距。
Oct, 2023
这篇论文介绍了 CIDAR,这是第一个由人类评论者文化对齐的开放式阿拉伯语指导调优数据集,CIDAR 拥有 10,000 个指令和输出对,代表着阿拉伯地区,实验证明 CIDAR 可以帮助将 LLMs 与阿拉伯文化相结合。
Feb, 2024
该论文描述了最近几年自然语言处理管道的进展,重点介绍了由 200 个数据集构成的阿拉伯语 NLP 数据集最大的公共目录 Masader,以及为其他语言开发的元数据注释策略。
Oct, 2021
该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖 8 个语言类别和 32 个领域,包括来自 444 个数据集的统计信息,共计超过 774.5 TB 的预训练语料库数据和 7 亿个实例的其他数据集数据;旨在为研究人员提供整个 LLM 文本数据集的全貌,并为未来的研究做出贡献。
Feb, 2024
本文介绍 AraMUS—— 最大的预训练阿拉伯语言模型,基于 529GB 高质量的阿拉伯文本数据,该模型在通用语言处理任务中达到了最先进的性能。此外,与现有的阿拉伯语言模型相比,AraMUS 表现出了优秀的少样本学习能力。
Jun, 2023
这篇论文介绍了 ArBanking77,这是一个在银行领域用于意图检测的大型阿拉伯语数据集。我们从原始的英文 Banking77 数据集进行了阿拉伯化和本土化处理,生成了 ArBanking77 数据集,其中包含了 31,404 个现代标准阿拉伯(MSA)和巴勒斯坦方言的查询,每个查询被分类为 77 个类别(意图)。此外,我们还提出了基于 AraBERT 的神经模型,经过在 ArBanking77 上微调后,在 MSA 和巴勒斯坦方言上分别获得了 0.9209 和 0.8995 的 F1 分数。我们进行了大量实验证明,在低资源环境下,该模型通过在部分数据上训练,并使用噪声查询进行扩充以模拟现实中自然语言处理系统(尤其是实时聊天查询)中的口语术语、错误和拼写错误。数据集和模型均可在此链接处公开获得。
Oct, 2023
本文介绍了 ArabicaQA,这是第一个用于阿拉伯语机器阅读理解和开放域问题回答的大规模数据集,包含了 89095 个可回答和 3701 个无法回答的问题,以及其他标记的开放域问题。同时还介绍了 AraDPR,这是第一个针对阿拉伯文本检索的密集段落检索模型,经过阿拉伯维基百科语料库的训练,专门用于解决阿拉伯文本检索中的独特挑战。此外,我们还对大型语言模型在阿拉伯语问题回答中进行了广泛的基准测试,并对其在阿拉伯语环境中的性能进行了批判性评估。总之,ArabicaQA、AraDPR 和在阿拉伯语问题回答中的语言模型基准测试为阿拉伯语自然语言处理领域带来了重要的进展。数据集和代码对于进一步研究都是公开可访问的。
Mar, 2024