ArmanEmo:用于文本情感检测的波斯语数据集
本文旨在评估和比较两种标记好的波斯语情感数据集(EmoPars 和 ArmanEmo)的性能,并通过使用数据增强技术、数据再平衡、类别权重和 Transformer-based Pretrained Language Models 等方法,解决数据不平衡问题,并提供了一种从高置信度样本中选择数据的策略,并在这些数据集上实现了 F1 分数的最优结果。
Nov, 2022
本研究通过使用 Python 包采集 COVID-19 相关的在线帖子,并使用情感相关术语的词典将其分类为情感或中性类别,接着进行手动标注以创建 ArPanEmo 数据集,该数据集是用于阿语在线帖子的情感细粒度识别的第一个最大型数据集。
May, 2023
通过对 DepressionEmo 数据集进行情感、时间分布和语言分析,并使用文本分类方法,特别是 BERT 模型,研究表明该数据集在通过文本分析来识别抑郁症患者的情感上具有一定的价值,其中自杀意图情感所达到的最高 F1-Macro 值表明了这一点。
Jan, 2024
本研究创建了一个巨大的印地语对话数据集 EmoInHindi,用于多标签情感和强度识别。研究着重于表达和识别上下文语境中的情感。
May, 2022
介绍了 GoEmotions,这是目前最大的手动标注的数据集之一,其中包含 58k 英文 Reddit 评论,并将其标记为 27 种情感类别或中性。通过传递学习实验,证明了该数据集具有良好的泛化性能,BERT-based 情感检测模型取得了.46 的平均 F1 分数。
May, 2020
在自然语言处理中,从文本输入进行情感分析既具有挑战性又有趣。然而,由于低水平语言(即泰米尔语)中的数据集缺乏,难以在这一领域进行高水平的研究。因此,我们介绍了这个标注数据集(一个包含超过 42k 个泰米尔 YouTube 评论的最大手动注释数据集,标注 31 种情绪,包括中立情绪)用于情绪识别。这个数据集的目标是改善泰米尔语中多项下游任务的情绪检测。我们还创建了三种不同的情感分组(3 类,7 类和 31 类),并在每个分组的类别中评估了模型的性能。我们的 MURIL-base 模型在我们的 3 类组数据集上达到了 0.6 的宏平均 F1 分数。在 7 类和 31 类组中,随机森林模型的宏平均 F1 分数分别为 0.42 和 0.29。
Feb, 2022
研究开发了一种新的情感标注的心理健康语料库 (EmoMent),从 Sri Lanka 和印度提取了 2802 篇 Facebook 帖子 (14845 句子),并使用 RoBERTa 模型对其进行自动分类分析,证明了情感分析的潜力。
Aug, 2022
我们引入了 FindingEmo,一个新的图像数据集,包含对 2.5 万张图片的注释,专门用于情绪识别。与现有数据集相反,它专注于描绘多个人物在各种自然、社交环境中的复杂场景,注释是整体进行的,超越了传统对人脸或单个人的关注。注释的维度包括情感价值、情感激动和情绪标签,使用 Prolific 收集注释。除了注释,我们还发布了指向原始图片的 URL 列表,以及所有相关的源代码。
Feb, 2024
使用深度学习技术和 BERT 文本嵌入方法,对来自资源匮乏语言的有限文本数据集进行情感识别的研究,通过介绍 SmallEnglishEmotions 数据集验证了这些方法在准确分类数据集中的优越性。
Feb, 2024
本研究旨在探索情感分类中的新数据集和深度学习模型在数据特征不同时的表现,结果发现 RoBERTa 模型在所有情况下表现最佳,并测试了这些模型对实际社交媒体帖子的适用性。
Feb, 2023