利山语:带有形态注释的也门、伊拉克、利比亚和苏丹阿拉伯方言语料库
本研究提出黎巴嫩 Corpus Baladi 作为阿拉伯语方言特定语料库的一部分,该语料库包含近 9.6K 个语素注释令牌,并旨在旨在丰富 Palestinian morphologically annotated Curras corpus,改进其解决检测到的错误。
May, 2022
本文提出了一种自动构建阿尔及利亚方言情感语料库的新方法,该语料库基于自动构建的阿尔及利亚情感词典,涉及使用阿拉伯文和阿拉伯字母拼音写成的社交媒体数据,并且取得了较好的实验结果。
Aug, 2018
该文介绍了一组规则,用于将 LDC 开发的阿拉伯语树库数据集划分为多个数据集,以满足自然语言处理研究中模型培训、技术开发和最终评估等需求。
Sep, 2013
该论文介绍了 Nabra,一个带有形态学注释的叙利亚阿拉伯方言语料库。叙利亚本土人收集了超过 6,000 个句子,包含大约 60,000 个单词,来自社交媒体帖子、电影和电视剧的剧本、歌曲歌词和当地谚语,用于构建 Nabra。Nabra 涵盖了包括阿勒颇、大马士革、代尔祖尔、哈马、霍姆斯、胡兰、拉塔基亚、马尔丁、拉卡和苏韦达在内的多种叙利亚当地方言。九名注释员在句子上下文中对这 60,000 个标记进行了全面的形态学注释。我们培训注释员遵循方法论注释指南,确保了唯一的语素注释,并对注释进行了规范化处理。F1 和 kappa 一致性得分在不同特征间的范围为 74%到 98%,显示了 Nabra 注释的出色质量。我们的语料库是开源的,并作为 Currasat 门户的一部分公开可用,此链接:[https://a_valid_link].
Oct, 2023
此篇研究论文介绍了在阿拉伯语中的方言识别问题,并提出了一种新的方法 —— 阿拉伯语方言水平(ALDi),这是一个连续的语言变量。研究使用 AOC-ALDi 数据集进行分析,并通过案例研究展示了 ALDi 在揭示阿拉伯语使用者在不同情境中的语言风格选择方面的有用性。
Oct, 2023
本文介绍一种收集和处理阿拉伯语历史语料库的方法,所得到的大规模语料库包括约 10 亿个单词,使用形态分析器进行处理,并检测出了平行段落并自动标注了年代。该语料库可用于数字人文学研究的实际应用。
Dec, 2016
本文介绍了对现代标准阿拉伯语(MSA)文本的词汇语义分析和注释的持续努力,提出了一个半自动注释工具,涉及描述的形态、句法和语义层面。
May, 2016
本研究旨在建立一份当代阿拉伯文语料库,收集了包括 8 个阿拉伯国家 10 个主要新闻来源的报纸文章,共计超过 5 百万篇文章,包含 15 亿个单词,标记了 SGML 和 XML 两种标记语言,并使用 UTF-8 和 Windows CP-1256 两种编码格式。
Nov, 2016
本文旨在调查目前免费提供的阿拉伯语语料库和语言资源的列表,并提供各种类别研究的发现和可能获得数据的直接链接。初步结果表明有 66 个来源可供选用,以方便自然语言处理应用的建立。
Feb, 2017
我们提供 ZAEBUC-Spoken,这是一个多语种多方言的阿拉伯语 - 英语语音语料库,包括阿拉伯语和英语两种语言,其中阿拉伯语有多个变体(现代标准阿拉伯语、海湾阿拉伯语和埃及阿拉伯语),并且用不同的口音使用英语,包括这些语言和方言之间的混码。
Mar, 2024