15 亿词的阿拉伯语语料库
本文介绍一种收集和处理阿拉伯语历史语料库的方法,所得到的大规模语料库包括约 10 亿个单词,使用形态分析器进行处理,并检测出了平行段落并自动标注了年代。该语料库可用于数字人文学研究的实际应用。
Dec, 2016
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
该研究致力于解决阿拉伯地区数据稀缺的问题,以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据,经过严格的清洗和去重处理,形成了迄今为止最大的 1010 亿阿拉伯词汇数据集,这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力,还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。
Apr, 2024
本文旨在调查目前免费提供的阿拉伯语语料库和语言资源的列表,并提供各种类别研究的发现和可能获得数据的直接链接。初步结果表明有 66 个来源可供选用,以方便自然语言处理应用的建立。
Feb, 2017
本文描述了一个基于互联网语言使用的语料库,重点介绍如何利用这个语料库进行数据驱动的语言映射;通过提供有关全球语言使用的信息来支持本地化语种,并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。
Apr, 2020
我们提出了 SAMER 语料库,这是第一个针对学龄儿童的阿拉伯语句子简化的手工注释的平行语料库。该语料库包括了 15 部公开可获取的阿拉伯小说,总共约 159K 个单词。我们在文档和单词级别对语料库进行了可读性标注,并提供了针对不同可读性水平的两个简化版本的平行文本。我们描述了语料库的选择过程,并概述了我们创建注释和确保其质量所遵循的指导方针。我们的语料库可以公开获取,以支持和鼓励阿拉伯语句子简化、阿拉伯语自动可读性评估以及阿拉伯语教育语言技术的研究发展。
Apr, 2024
通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS),我们填补了现有资源中阿拉伯语音语料库的空缺,以支持一些现代的端到端阿拉伯语音合成系统。
Feb, 2023
本研究在于使用阿拉伯语拉丁写法(Arabizi)对突尼斯阿拉伯语进行编码,在此基础上创建了一个包含语料库和 NLP 工具的资源,用于提供各级语言信息的词语分类、音译、标记、词形归总等,并讨论了使用计算和语言方法进行研究路径和实验的策略等问题,最终提供了可能广泛用于计算和语言研究的资源。
Jul, 2022
本研究提出黎巴嫩 Corpus Baladi 作为阿拉伯语方言特定语料库的一部分,该语料库包含近 9.6K 个语素注释令牌,并旨在旨在丰富 Palestinian morphologically annotated Curras corpus,改进其解决检测到的错误。
May, 2022
该论文介绍了目前最大的阿拉伯语语音数据集 QASR,包含 2000 小时的文本和语音数据,可以用于语音识别、语音和 / 或语言学中阿拉伯语方言识别、语音人物识别和潜在的其他 NLP 模块的训练和评估。对于下游 NLP 任务,如命名实体识别和阿拉伯语标点修复,该数据集还提供了基线结果。
Jun, 2021