TUNIZI: 一个突尼斯阿拉伯语情感分析数据集

Apr, 2020

TUNIZI: 一个突尼斯阿拉伯语情感分析数据集

TUNIZI: a Tunisian Arabizi sentiment analysis Dataset

Chayma Fourati, Abir Messaoudi, Hatem Haddad

TL;DR本研究介绍了 TUNIZI，一种情感分析突尼斯语阿拉伯字母表数据集，旨在开发和提高分析研究，通过社交媒体收集并由突尼斯本土讲话者手动标注准备。

Abstract

On social media, Arabic people tend to express themselves in their own local dialects. More particularly, Tunisians use the informal way called "Tunisian Arabizi". Analytical studies seek to explore and recognize online opinions aiming to exploit them for planning and prediction purpos

social media arabic dialects tunisian arabizi deep learning sentiment analysis

发现论文，激发创造

针对突尼斯情感分析的单词表示学习

本文探讨了在社交媒体上使用突尼斯方言进行情感分析的挑战和方法，重点介绍了使用无监督学习下的自然语言处理和深度神经网络技术，在不使用手工特征的情况下，成功实现了与其他语言情感分析的相当水平。

Oct, 2020

TArC: 突尼斯阿拉伯语语料库的首个完整版本发布

本研究在于使用阿拉伯语拉丁写法（Arabizi）对突尼斯阿拉伯语进行编码，在此基础上创建了一个包含语料库和 NLP 工具的资源，用于提供各级语言信息的词语分类、音译、标记、词形归总等，并讨论了使用计算和语言方法进行研究路径和实验的策略等问题，最终提供了可能广泛用于计算和语言研究的资源。

Jul, 2022

SentiALG：阿尔及利亚情感分析自动语料标注

本文提出了一种自动构建阿尔及利亚方言情感语料库的新方法，该语料库基于自动构建的阿尔及利亚情感词典，涉及使用阿拉伯文和阿拉伯字母拼音写成的社交媒体数据，并且取得了较好的实验结果。

Aug, 2018

丰富 NArabizi 树库：多方面支持资源匮乏的语言的方法

本研究针对 NArabizi 语言数据的人工标注数据不足的问题，通过引入两个新的注释层和再次标注的方式，增强了 NArabizi Treebank，从而为该语言的高级语言模型和自然语言处理工具的开发提供了基础。

Jun, 2023

AfriSenti：针对非洲语言的 Twitter 情感分析基准

本文介绍了 AfriSenti 数据集，该数据集由 14 种非洲语言的 110,000 多个推文组成，为四个语系中的 14 种非洲语言提供了 14 个情感数据集，并由母语为非洲语的人进行了注释。它用于 SemEval 2023 任务 12，这是第一个非洲中心的 SemEval 共享任务，并描述了数据收集方法，注释过程以及策划每个数据集时遇到的相关挑战。

Feb, 2023

阿拉伯拉丁字母拼音检测和转换为阿拉伯文

本文描述了如何使用单词和序列级别的特征来识别英语混杂的 Arabizi 文字，并使用语言建模进行转译，在保真度上达到了 88.7％的识别精度。

Jun, 2013

利用数据收集和无监督学习对突尼斯阿拉伯语混合语音自动识别的提升

本研究旨在解决突尼斯方言语音识别的挑战，通过采集和注释文本和音频数据，并探索自监督、半监督和少样本代码转换方法，使其在不同的突尼斯测试集中取得前沿成果，最终通过人工评估确保翻译的准确性，所提出的模型适用于突尼斯阿拉伯语、英语和法语的语言混合，并提供训练和测试数据供公众使用和进一步改进。

Sep, 2023

ArSentD-LEV：基于目标词的阿拉伯黎凡特推文情感分析的多主题语料库

本研究介绍了一个阿拉伯方言情感数据集（ArSenTD-LEV），包含 4,000 条推文，并提供了整体情感、情感表达方式、情感表达目标和推文主题等注释，研究结果表明这些注释可以提高基线情感分类器的性能，也确认了训练与测试领域不匹配的差距。

May, 2019

摩洛哥方言文本情感分类的实验研究

本文目的在于通过情感分析依据机器学习模型对 YouTube 摩洛哥方言评论进行分类研究，在采用多种文本预处理和数据表现技术的前提下，证明深度学习模型胜于传统模型，我们达到了 90% 的准确性。

Mar, 2023

乌尔都语音与文本情感分析器

本研究提出了一个基于用户评价的新型多类乌尔都数据集，旨在为乌尔都情感分析构建手动注释的数据集，并建立基准结果。使用五种不同的词库和基于规则的算法，最终实验结果表明，Flair 的准确率为 70%，优于其他测试的算法。

Jul, 2022