TArC: 突尼斯阿拉伯语语料库的首个完整版本发布
本研究介绍了 TUNIZI,一种情感分析突尼斯语阿拉伯字母表数据集,旨在开发和提高分析研究,通过社交媒体收集并由突尼斯本土讲话者手动标注准备。
Apr, 2020
本研究针对 NArabizi 语言数据的人工标注数据不足的问题,通过引入两个新的注释层和再次标注的方式,增强了 NArabizi Treebank,从而为该语言的高级语言模型和自然语言处理工具的开发提供了基础。
Jun, 2023
本文提出了一种自动构建阿尔及利亚方言情感语料库的新方法,该语料库基于自动构建的阿尔及利亚情感词典,涉及使用阿拉伯文和阿拉伯字母拼音写成的社交媒体数据,并且取得了较好的实验结果。
Aug, 2018
本文探讨了在社交媒体上使用突尼斯方言进行情感分析的挑战和方法,重点介绍了使用无监督学习下的自然语言处理和深度神经网络技术,在不使用手工特征的情况下,成功实现了与其他语言情感分析的相当水平。
Oct, 2020
本研究旨在建立一份当代阿拉伯文语料库,收集了包括 8 个阿拉伯国家 10 个主要新闻来源的报纸文章,共计超过 5 百万篇文章,包含 15 亿个单词,标记了 SGML 和 XML 两种标记语言,并使用 UTF-8 和 Windows CP-1256 两种编码格式。
Nov, 2016
通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS),我们填补了现有资源中阿拉伯语音语料库的空缺,以支持一些现代的端到端阿拉伯语音合成系统。
Feb, 2023
本研究旨在解决突尼斯方言语音识别的挑战,通过采集和注释文本和音频数据,并探索自监督、半监督和少样本代码转换方法,使其在不同的突尼斯测试集中取得前沿成果,最终通过人工评估确保翻译的准确性,所提出的模型适用于突尼斯阿拉伯语、英语和法语的语言混合,并提供训练和测试数据供公众使用和进一步改进。
Sep, 2023
本文介绍了使用 ADAT 工具在多个社交媒体平台中收集了逾 120 万单词量的四种不同阿拉伯方言 Lisan Corpus,并对其词干和词缀进行了分词和词形注解。
Dec, 2022
本文旨在调查目前免费提供的阿拉伯语语料库和语言资源的列表,并提供各种类别研究的发现和可能获得数据的直接链接。初步结果表明有 66 个来源可供选用,以方便自然语言处理应用的建立。
Feb, 2017
本文介绍 ArzEn-ST 语料库的收集工作,该语料库为阿拉伯语 - 英语混合语音翻译语料库,并提出基准系统的机器翻译和语音翻译任务的结果。
Nov, 2022