15 亿词的阿拉伯语语料库

Nov, 2016

1.5 billion words Arabic Corpus

Ibrahim Abu El-khair

TL;DR本研究旨在建立一份当代阿拉伯文语料库，收集了包括 8 个阿拉伯国家 10 个主要新闻来源的报纸文章，共计超过 5 百万篇文章，包含 15 亿个单词，标记了 SGML 和 XML 两种标记语言，并使用 UTF-8 和 Windows CP-1256 两种编码格式。

Abstract

This study is an attempt to build a contemporary linguistic corpus for Arabic language. The corpus produced, is a text corpus includes more than five million newspaper articles. It contains over a billion and a half words in total, out of which, there is about three million unique word

arabic corpus newspaper articles linguistic research

发现论文，激发创造

Shamela：一个大规模历史阿拉伯语语料库

本文介绍一种收集和处理阿拉伯语历史语料库的方法，所得到的大规模语料库包括约 10 亿个单词，使用形态分析器进行处理，并检测出了平行段落并自动标注了年代。该语料库可用于数字人文学研究的实际应用。

Dec, 2016

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

101 亿阿拉伯语词汇数据集

该研究致力于解决阿拉伯地区数据稀缺的问题，以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据，经过严格的清洗和去重处理，形成了迄今为止最大的 1010 亿阿拉伯词汇数据集，这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力，还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。

Apr, 2024

自由获取的阿拉伯语语料库的关键调查

本文旨在调查目前免费提供的阿拉伯语语料库和语言资源的列表，并提供各种类别研究的发现和可能获得数据的直接链接。初步结果表明有 66 个来源可供选用，以方便自然语言处理应用的建立。

Feb, 2017

映射语言：全球语言使用语料库

本文描述了一个基于互联网语言使用的语料库，重点介绍如何利用这个语料库进行数据驱动的语言映射；通过提供有关全球语言使用的信息来支持本地化语种，并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。

Apr, 2020

SAMER 阿拉伯文本简化语料库

我们提出了 SAMER 语料库，这是第一个针对学龄儿童的阿拉伯语句子简化的手工注释的平行语料库。该语料库包括了 15 部公开可获取的阿拉伯小说，总共约 159K 个单词。我们在文档和单词级别对语料库进行了可读性标注，并提供了针对不同可读性水平的两个简化版本的平行文本。我们描述了语料库的选择过程，并概述了我们创建注释和确保其质量所遵循的指导方针。我们的语料库可以公开获取，以支持和鼓励阿拉伯语句子简化、阿拉伯语自动可读性评估以及阿拉伯语教育语言技术的研究发展。

Apr, 2024

ClArTTS: 一个开放源代码的古典阿拉伯语语音合成语料库

通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS)，我们填补了现有资源中阿拉伯语音语料库的空缺，以支持一些现代的端到端阿拉伯语音合成系统。

Feb, 2023

TArC: 突尼斯阿拉伯语语料库的首个完整版本发布

本研究在于使用阿拉伯语拉丁写法（Arabizi）对突尼斯阿拉伯语进行编码，在此基础上创建了一个包含语料库和 NLP 工具的资源，用于提供各级语言信息的词语分类、音译、标记、词形归总等，并讨论了使用计算和语言方法进行研究路径和实验的策略等问题，最终提供了可能广泛用于计算和语言研究的资源。

Jul, 2022

Curras + Baladi: 迈向黎凡特文集

本研究提出黎巴嫩 Corpus Baladi 作为阿拉伯语方言特定语料库的一部分，该语料库包含近 9.6K 个语素注释令牌，并旨在旨在丰富 Palestinian morphologically annotated Curras corpus，改进其解决检测到的错误。

May, 2022

QASR：QCRI Aljazeera 语音资源 -- 大规模标注的阿拉伯语音语料库

该论文介绍了目前最大的阿拉伯语语音数据集 QASR，包含 2000 小时的文本和语音数据，可以用于语音识别、语音和 / 或语言学中阿拉伯语方言识别、语音人物识别和潜在的其他 NLP 模块的训练和评估。对于下游 NLP 任务，如命名实体识别和阿拉伯语标点修复，该数据集还提供了基线结果。

Jun, 2021