TUNIZI: 一个突尼斯阿拉伯语情感分析数据集
本文探讨了在社交媒体上使用突尼斯方言进行情感分析的挑战和方法,重点介绍了使用无监督学习下的自然语言处理和深度神经网络技术,在不使用手工特征的情况下,成功实现了与其他语言情感分析的相当水平。
Oct, 2020
本研究在于使用阿拉伯语拉丁写法(Arabizi)对突尼斯阿拉伯语进行编码,在此基础上创建了一个包含语料库和 NLP 工具的资源,用于提供各级语言信息的词语分类、音译、标记、词形归总等,并讨论了使用计算和语言方法进行研究路径和实验的策略等问题,最终提供了可能广泛用于计算和语言研究的资源。
Jul, 2022
本文提出了一种自动构建阿尔及利亚方言情感语料库的新方法,该语料库基于自动构建的阿尔及利亚情感词典,涉及使用阿拉伯文和阿拉伯字母拼音写成的社交媒体数据,并且取得了较好的实验结果。
Aug, 2018
本研究针对 NArabizi 语言数据的人工标注数据不足的问题,通过引入两个新的注释层和再次标注的方式,增强了 NArabizi Treebank,从而为该语言的高级语言模型和自然语言处理工具的开发提供了基础。
Jun, 2023
本文介绍了 AfriSenti 数据集,该数据集由 14 种非洲语言的 110,000 多个推文组成,为四个语系中的 14 种非洲语言提供了 14 个情感数据集,并由母语为非洲语的人进行了注释。它用于 SemEval 2023 任务 12,这是第一个非洲中心的 SemEval 共享任务,并描述了数据收集方法,注释过程以及策划每个数据集时遇到的相关挑战。
Feb, 2023
本研究旨在解决突尼斯方言语音识别的挑战,通过采集和注释文本和音频数据,并探索自监督、半监督和少样本代码转换方法,使其在不同的突尼斯测试集中取得前沿成果,最终通过人工评估确保翻译的准确性,所提出的模型适用于突尼斯阿拉伯语、英语和法语的语言混合,并提供训练和测试数据供公众使用和进一步改进。
Sep, 2023
本研究介绍了一个阿拉伯方言情感数据集(ArSenTD-LEV),包含 4,000 条推文,并提供了整体情感、情感表达方式、情感表达目标和推文主题等注释,研究结果表明这些注释可以提高基线情感分类器的性能,也确认了训练与测试领域不匹配的差距。
May, 2019
本文目的在于通过情感分析依据机器学习模型对 YouTube 摩洛哥方言评论进行分类研究,在采用多种文本预处理和数据表现技术的前提下,证明深度学习模型胜于传统模型,我们达到了 90% 的准确性。
Mar, 2023
本研究提出了一个基于用户评价的新型多类乌尔都数据集,旨在为乌尔都情感分析构建手动注释的数据集,并建立基准结果。使用五种不同的词库和基于规则的算法,最终实验结果表明,Flair 的准确率为 70%,优于其他测试的算法。
Jul, 2022