利山语：带有形态注释的也门、伊拉克、利比亚和苏丹阿拉伯方言语料库

Dec, 2022

利山语：带有形态注释的也门、伊拉克、利比亚和苏丹阿拉伯方言语料库

Lisan: Yemeni, Iraqi, Libyan, and Sudanese Arabic Dialect Copora with Morphological Annotations

Mustafa Jarrar, Fadi A Zaraket, Tymaa Hammouda, Daanish Masood Alavi, Martin Waahlisch

TL;DR本文介绍了使用 ADAT 工具在多个社交媒体平台中收集了逾 120 万单词量的四种不同阿拉伯方言 Lisan Corpus，并对其词干和词缀进行了分词和词形注解。

Abstract

This article presents morphologically-annotated Yemeni, Sudanese, Iraqi, and Libyan arabic dialects lisan corpora. Lisan features around 1.2 million tokens. We collected the content of the corpora from several

arabic dialects lisan corpora morphological annotation social media platforms adat

发现论文，激发创造

Curras + Baladi: 迈向黎凡特文集

本研究提出黎巴嫩 Corpus Baladi 作为阿拉伯语方言特定语料库的一部分，该语料库包含近 9.6K 个语素注释令牌，并旨在旨在丰富 Palestinian morphologically annotated Curras corpus，改进其解决检测到的错误。

May, 2022

SentiALG：阿尔及利亚情感分析自动语料标注

本文提出了一种自动构建阿尔及利亚方言情感语料库的新方法，该语料库基于自动构建的阿尔及利亚情感词典，涉及使用阿拉伯文和阿拉伯字母拼音写成的社交媒体数据，并且取得了较好的实验结果。

Aug, 2018

LDC 阿拉伯语树库和相关语料库：数据分区手册

该文介绍了一组规则，用于将 LDC 开发的阿拉伯语树库数据集划分为多个数据集，以满足自然语言处理研究中模型培训、技术开发和最终评估等需求。

Sep, 2013

纳布拉：叙利亚阿拉伯方言及其形态学注释

该论文介绍了 Nabra，一个带有形态学注释的叙利亚阿拉伯方言语料库。叙利亚本土人收集了超过 6,000 个句子，包含大约 60,000 个单词，来自社交媒体帖子、电影和电视剧的剧本、歌曲歌词和当地谚语，用于构建 Nabra。Nabra 涵盖了包括阿勒颇、大马士革、代尔祖尔、哈马、霍姆斯、胡兰、拉塔基亚、马尔丁、拉卡和苏韦达在内的多种叙利亚当地方言。九名注释员在句子上下文中对这 60,000 个标记进行了全面的形态学注释。我们培训注释员遵循方法论注释指南，确保了唯一的语素注释，并对注释进行了规范化处理。F1 和 kappa 一致性得分在不同特征间的范围为 74％到 98％，显示了 Nabra 注释的出色质量。我们的语料库是开源的，并作为 Currasat 门户的一部分公开可用，此链接：[https://a_valid_link].

Oct, 2023

ALDi：量化文本中阿拉伯方言程度

此篇研究论文介绍了在阿拉伯语中的方言识别问题，并提出了一种新的方法 —— 阿拉伯语方言水平（ALDi），这是一个连续的语言变量。研究使用 AOC-ALDi 数据集进行分析，并通过案例研究展示了 ALDi 在揭示阿拉伯语使用者在不同情境中的语言风格选择方面的有用性。

Oct, 2023

Shamela：一个大规模历史阿拉伯语语料库

本文介绍一种收集和处理阿拉伯语历史语料库的方法，所得到的大规模语料库包括约 10 亿个单词，使用形态分析器进行处理，并检测出了平行段落并自动标注了年代。该语料库可用于数字人文学研究的实际应用。

Dec, 2016

阿拉伯语语料库的多级分析和注释用于文本 - 手语机器翻译

本文介绍了对现代标准阿拉伯语（MSA）文本的词汇语义分析和注释的持续努力，提出了一个半自动注释工具，涉及描述的形态、句法和语义层面。

May, 2016

15 亿词的阿拉伯语语料库

本研究旨在建立一份当代阿拉伯文语料库，收集了包括 8 个阿拉伯国家 10 个主要新闻来源的报纸文章，共计超过 5 百万篇文章，包含 15 亿个单词，标记了 SGML 和 XML 两种标记语言，并使用 UTF-8 和 Windows CP-1256 两种编码格式。

Nov, 2016

自由获取的阿拉伯语语料库的关键调查

本文旨在调查目前免费提供的阿拉伯语语料库和语言资源的列表，并提供各种类别研究的发现和可能获得数据的直接链接。初步结果表明有 66 个来源可供选用，以方便自然语言处理应用的建立。

Feb, 2017

ZAEBUC-Spoken: 多语种多方言的阿拉伯 - 英语语音语料库

我们提供 ZAEBUC-Spoken，这是一个多语种多方言的阿拉伯语 - 英语语音语料库，包括阿拉伯语和英语两种语言，其中阿拉伯语有多个变体（现代标准阿拉伯语、海湾阿拉伯语和埃及阿拉伯语），并且用不同的口音使用英语，包括这些语言和方言之间的混码。

Mar, 2024