101 亿阿拉伯语词汇数据集

Apr, 2024

101 Billion Arabic Words Dataset

Manel Aloui, Hasna Chouikhi, Ghaith Chaabane, Haithem Kchaou, Chehir Dhaouadi

TL;DR该研究致力于解决阿拉伯地区数据稀缺的问题，以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据，经过严格的清洗和去重处理，形成了迄今为止最大的 1010 亿阿拉伯词汇数据集，这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力，还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。

Abstract

In recent years, large language models have revolutionized the field of natural language processing, showcasing an impressive rise predominantly in English-centric domains. These advancements have set a global benchmark, inspiring significant efforts toward developing →

large language models arabic data scarcity linguistic data arabic language models

发现论文，激发创造

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

阿拉伯语 MMLU: 评估阿拉伯语的大规模多任务语言理解

评估语言模型、阿拉伯语多任务语言理解基准、模型性能

Feb, 2024

15 亿词的阿拉伯语语料库

本研究旨在建立一份当代阿拉伯文语料库，收集了包括 8 个阿拉伯国家 10 个主要新闻来源的报纸文章，共计超过 5 百万篇文章，包含 15 亿个单词，标记了 SGML 和 XML 两种标记语言，并使用 UTF-8 和 Windows CP-1256 两种编码格式。

Nov, 2016

基于大型语言模型的阿拉伯法律裁决预测

在阿拉伯法律分析领域中，我们的研究通过使用现有最先进的大型语言模型，全面预测了一批基于商业法庭真实案例的阿拉伯法院判决。通过评估不同预训练模型和训练方法的性能，并采用不同的评估指标，我们发现基于 GPT-3.5 的模型在所有模型中表现最佳，超过专门针对阿拉伯文的 JAIS 模型平均得分的 50%。同时，我们还发现大语言模型在法院判决预测中的性能评估除了人工评估之外的其他指标都是不一致且不可靠的。本研究为未来的研究奠定了基础，弥合计算语言学与阿拉伯法律分析之间的差距。

Oct, 2023

CIDAR: 针对阿拉伯文的文化相关教学数据集

这篇论文介绍了 CIDAR，这是第一个由人类评论者文化对齐的开放式阿拉伯语指导调优数据集，CIDAR 拥有 10,000 个指令和输出对，代表着阿拉伯地区，实验证明 CIDAR 可以帮助将 LLMs 与阿拉伯文化相结合。

Feb, 2024

Masader: 面向阿拉伯文本和语音数据资源的元数据采集

该论文描述了最近几年自然语言处理管道的进展，重点介绍了由 200 个数据集构成的阿拉伯语 NLP 数据集最大的公共目录 Masader，以及为其他语言开发的元数据注释策略。

Oct, 2021

大型语言模型的数据集：综述

该研究论文对大型语言模型数据集进行了综述和分类，包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面；此外还提供了现有数据集资源的综合评估，涵盖 8 个语言类别和 32 个领域，包括来自 444 个数据集的统计信息，共计超过 774.5 TB 的预训练语料库数据和 7 亿个实例的其他数据集数据；旨在为研究人员提供整个 LLM 文本数据集的全貌，并为未来的研究做出贡献。

Feb, 2024

AraMUS: 将数据和模型规模的极限推向阿拉伯语自然语言处理

本文介绍 AraMUS—— 最大的预训练阿拉伯语言模型，基于 529GB 高质量的阿拉伯文本数据，该模型在通用语言处理任务中达到了最先进的性能。此外，与现有的阿拉伯语言模型相比，AraMUS 表现出了优秀的少样本学习能力。

Jun, 2023

ArBanking77：意图检测的神经模型与现代及辩证阿拉伯语言的新数据集

这篇论文介绍了 ArBanking77，这是一个在银行领域用于意图检测的大型阿拉伯语数据集。我们从原始的英文 Banking77 数据集进行了阿拉伯化和本土化处理，生成了 ArBanking77 数据集，其中包含了 31,404 个现代标准阿拉伯（MSA）和巴勒斯坦方言的查询，每个查询被分类为 77 个类别（意图）。此外，我们还提出了基于 AraBERT 的神经模型，经过在 ArBanking77 上微调后，在 MSA 和巴勒斯坦方言上分别获得了 0.9209 和 0.8995 的 F1 分数。我们进行了大量实验证明，在低资源环境下，该模型通过在部分数据上训练，并使用噪声查询进行扩充以模拟现实中自然语言处理系统（尤其是实时聊天查询）中的口语术语、错误和拼写错误。数据集和模型均可在此链接处公开获得。

Oct, 2023

ArabicaQA: 阿拉伯问答系统的综合数据集

本文介绍了 ArabicaQA，这是第一个用于阿拉伯语机器阅读理解和开放域问题回答的大规模数据集，包含了 89095 个可回答和 3701 个无法回答的问题，以及其他标记的开放域问题。同时还介绍了 AraDPR，这是第一个针对阿拉伯文本检索的密集段落检索模型，经过阿拉伯维基百科语料库的训练，专门用于解决阿拉伯文本检索中的独特挑战。此外，我们还对大型语言模型在阿拉伯语问题回答中进行了广泛的基准测试，并对其在阿拉伯语环境中的性能进行了批判性评估。总之，ArabicaQA、AraDPR 和在阿拉伯语问题回答中的语言模型基准测试为阿拉伯语自然语言处理领域带来了重要的进展。数据集和代码对于进一步研究都是公开可访问的。

Mar, 2024