ArmanEmo：用于文本情感检测的波斯语数据集

Jul, 2022

ArmanEmo：用于文本情感检测的波斯语数据集

ArmanEmo: A Persian Dataset for Text-based Emotion Detection

Hossein Mirzaee, Javad Peymanfard, Hamid Habibzadeh Moshtaghin, Hossein Zeinali

TL;DR介绍了一个超过 7000 个波斯语句子的人工标注情感数据集 ——ArmanEmo，该数据集基于 Ekman 的六种基本情感和 “其他” 类别标注，同时提供了基于现代语言模型的情感分类基线模型。实验结果表明，该数据集具有超越现有波斯语情感数据集的更好泛化能力。

Abstract

With the recent proliferation of open textual data on social media platforms, emotion detection (ED) from Text has received more attention over the past years. It has many applications, especially for businesses and online service providers, where →

emotion detection dataset persian language models generalizability

发现论文，激发创造

使用 ParsBERT 和不平衡数据处理方法的波斯情感检测

本文旨在评估和比较两种标记好的波斯语情感数据集（EmoPars 和 ArmanEmo）的性能，并通过使用数据增强技术、数据再平衡、类别权重和 Transformer-based Pretrained Language Models 等方法，解决数据不平衡问题，并提供了一种从高置信度样本中选择数据的策略，并在这些数据集上实现了 F1 分数的最优结果。

Nov, 2022

ArPanEmo：一份面向 COVID-19 疫情期间阿拉伯在线内容的细粒度情绪识别开源数据集

本研究通过使用 Python 包采集 COVID-19 相关的在线帖子，并使用情感相关术语的词典将其分类为情感或中性类别，接着进行手动标注以创建 ArPanEmo 数据集，该数据集是用于阿语在线帖子的情感细粒度识别的第一个最大型数据集。

May, 2023

抑郁情绪多标签分类的新颖数据集

通过对 DepressionEmo 数据集进行情感、时间分布和语言分析，并使用文本分类方法，特别是 BERT 模型，研究表明该数据集在通过文本分析来识别抑郁症患者的情感上具有一定的价值，其中自杀意图情感所达到的最高 F1-Macro 值表明了这一点。

Jan, 2024

EmoInHindi：一份多标签带有情感和强度注释的印地语数据集，用于对话情感识别

本研究创建了一个巨大的印地语对话数据集 EmoInHindi，用于多标签情感和强度识别。研究着重于表达和识别上下文语境中的情感。

May, 2022

GoEmotions：一份包含细致情绪的数据集

介绍了 GoEmotions，这是目前最大的手动标注的数据集之一，其中包含 58k 英文 Reddit 评论，并将其标记为 27 种情感类别或中性。通过传递学习实验，证明了该数据集具有良好的泛化性能，BERT-based 情感检测模型取得了.46 的平均 F1 分数。

May, 2020

TamilEmo：泰米尔细粒度情感检测数据集

在自然语言处理中，从文本输入进行情感分析既具有挑战性又有趣。然而，由于低水平语言（即泰米尔语）中的数据集缺乏，难以在这一领域进行高水平的研究。因此，我们介绍了这个标注数据集（一个包含超过 42k 个泰米尔 YouTube 评论的最大手动注释数据集，标注 31 种情绪，包括中立情绪）用于情绪识别。这个数据集的目标是改善泰米尔语中多项下游任务的情绪检测。我们还创建了三种不同的情感分组（3 类，7 类和 31 类），并在每个分组的类别中评估了模型的性能。我们的 MURIL-base 模型在我们的 3 类组数据集上达到了 0.6 的宏平均 F1 分数。在 7 类和 31 类组中，随机森林模型的宏平均 F1 分数分别为 0.42 和 0.29。

Feb, 2022

EmoMent：来自南亚两国的情感注释心理健康语料库

研究开发了一种新的情感标注的心理健康语料库 (EmoMent)，从 Sri Lanka 和印度提取了 2802 篇 Facebook 帖子 (14845 句子)，并使用 RoBERTa 模型对其进行自动分类分析，证明了情感分析的潜力。

Aug, 2022

在自然环境中情感识别的图像数据集：FindingEmo

我们引入了 FindingEmo，一个新的图像数据集，包含对 2.5 万张图片的注释，专门用于情绪识别。与现有数据集相反，它专注于描绘多个人物在各种自然、社交环境中的复杂场景，注释是整体进行的，超越了传统对人脸或单个人的关注。注释的维度包括情感价值、情感激动和情绪标签，使用 Prolific 收集注释。除了注释，我们还发布了指向原始图片的 URL 列表，以及所有相关的源代码。

Feb, 2024

使用深度学习技术对短英文文本进行情感分类

使用深度学习技术和 BERT 文本嵌入方法，对来自资源匮乏语言的有限文本数据集进行情感识别的研究，通过介绍 SmallEnglishEmotions 数据集验证了这些方法在准确分类数据集中的优越性。

Feb, 2024

基于文本的情感自动分类：不同数据集的比较探索

本研究旨在探索情感分类中的新数据集和深度学习模型在数据特征不同时的表现，结果发现 RoBERTa 模型在所有情况下表现最佳，并测试了这些模型对实际社交媒体帖子的适用性。

Feb, 2023