Maknuune: 一个大型开放式巴勒斯坦阿拉伯语词典
我们介绍了 Qabas,这是一个新颖的开源阿拉伯词典,用于自然语言处理应用。Qabas 综合了 110 个词典,将词条通过链接的方式组合在一起,并且还与 12 个形态标注的语料库链接,使其成为首个与词典和语料库进行链接的阿拉伯词典。Qabas 是通过半自动化方式开发的,利用了一个映射框架和一个基于 Web 的工具。与其他词典相比,Qabas 是最全面的阿拉伯词典之一,包括约 58,000 个词条(45,000 个名词词条,12,500 个动词词条和 473 个功能词词条)。Qabas 是开源的,可以在网上访问。
Jun, 2024
本文介绍一种收集和处理阿拉伯语历史语料库的方法,所得到的大规模语料库包括约 10 亿个单词,使用形态分析器进行处理,并检测出了平行段落并自动标注了年代。该语料库可用于数字人文学研究的实际应用。
Dec, 2016
本研究提出黎巴嫩 Corpus Baladi 作为阿拉伯语方言特定语料库的一部分,该语料库包含近 9.6K 个语素注释令牌,并旨在旨在丰富 Palestinian morphologically annotated Curras corpus,改进其解决检测到的错误。
May, 2022
本研究旨在建立一份当代阿拉伯文语料库,收集了包括 8 个阿拉伯国家 10 个主要新闻来源的报纸文章,共计超过 5 百万篇文章,包含 15 亿个单词,标记了 SGML 和 XML 两种标记语言,并使用 UTF-8 和 Windows CP-1256 两种编码格式。
Nov, 2016
该论文介绍了 Nabra,一个带有形态学注释的叙利亚阿拉伯方言语料库。叙利亚本土人收集了超过 6,000 个句子,包含大约 60,000 个单词,来自社交媒体帖子、电影和电视剧的剧本、歌曲歌词和当地谚语,用于构建 Nabra。Nabra 涵盖了包括阿勒颇、大马士革、代尔祖尔、哈马、霍姆斯、胡兰、拉塔基亚、马尔丁、拉卡和苏韦达在内的多种叙利亚当地方言。九名注释员在句子上下文中对这 60,000 个标记进行了全面的形态学注释。我们培训注释员遵循方法论注释指南,确保了唯一的语素注释,并对注释进行了规范化处理。F1 和 kappa 一致性得分在不同特征间的范围为 74%到 98%,显示了 Nabra 注释的出色质量。我们的语料库是开源的,并作为 Currasat 门户的一部分公开可用,此链接:[https://a_valid_link].
Oct, 2023
通过多词干方法,本文展示了在语态系统中,能够更好地归纳不规则复数形式,既不需要删除规则,也不需要其他复杂规则。我们提供了语言学和统计学证据来反驳从单数或词根派生不规则复数的先前分析,并提出了基于词素的语态结构中的阿拉伯名词复数系统的多词干方法。在 Morphe 中实现了阿拉伯名词系统,并展示了如何使用等效节点捕捉语言学分析部分中讨论的概括性内容。
May, 2024
该研究致力于解决阿拉伯地区数据稀缺的问题,以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据,经过严格的清洗和去重处理,形成了迄今为止最大的 1010 亿阿拉伯词汇数据集,这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力,还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。
Apr, 2024
高质量的词网(WordNets)对于依赖此类资源的 NLP 应用程序来说非常重要。为了解决诸如词汇错误、缺失的释义和例句,以及语言形态和语义的不完善等问题,我们对阿拉伯语 WordNet 进行了重大修订,更新了超过 58% 的同义词集。通过添加缺失的信息和纠正错误,同时还扩展了词网结构,引入了新的元素:短语和词汇空缺,以应对语言多样性和不可翻译性的问题。
Mar, 2024
本文介绍了一种基于阿拉伯本体中心构建的规范化阿拉伯 Wordnet,该本体提供了阿拉伯术语所传达的概念的正式表达,目前拥有约 1,300 个已调查概念和 11,000 个部分验证概念,并提供词典搜索引擎以及包含大约 150 个阿拉伯 - 多语言词典。此外,该本体已完全映射了 Princeton WordNet、Wikidata 等资源。
May, 2022