KOTE 韓國線上留言情感數據集用戶指南
介绍了 GoEmotions,这是目前最大的手动标注的数据集之一,其中包含 58k 英文 Reddit 评论,并将其标记为 27 种情感类别或中性。通过传递学习实验,证明了该数据集具有良好的泛化性能,BERT-based 情感检测模型取得了.46 的平均 F1 分数。
May, 2020
本文介绍了韩国冒犯性语言数据集(KOLD),其中包含 40,429 个分层注释的评论,以及相应文本跨度的注释。作者使用这些注释的评论作为韩文 BERT 和 RoBERTa 模型的训练数据,并发现它们对于冒犯性检测、目标分类和目标跨度检测很有效。提供上下文信息可以显著提高模型性能,在冒犯性检测(+0.3)、目标分类(+1.5)和目标组分类(+13.1)方面有所改善。
May, 2022
本文介绍了 K-EmoCon 数据集,该数据集支持从多个角度评估社交互动中的持续情感,并包括音频 / 视觉记录、EEG 和外围生理信号等多模态测量。
May, 2020
本文旨在确定韩语毒性言论,提供了相关数据集,并使用 CharCNN、BiLSTM 和 BERT 三种模型进行分析和预测,结果显示 BERT 在所有任务中表现最佳。
May, 2020
在自然语言处理中,从文本输入进行情感分析既具有挑战性又有趣。然而,由于低水平语言(即泰米尔语)中的数据集缺乏,难以在这一领域进行高水平的研究。因此,我们介绍了这个标注数据集(一个包含超过 42k 个泰米尔 YouTube 评论的最大手动注释数据集,标注 31 种情绪,包括中立情绪)用于情绪识别。这个数据集的目标是改善泰米尔语中多项下游任务的情绪检测。我们还创建了三种不同的情感分组(3 类,7 类和 31 类),并在每个分组的类别中评估了模型的性能。我们的 MURIL-base 模型在我们的 3 类组数据集上达到了 0.6 的宏平均 F1 分数。在 7 类和 31 类组中,随机森林模型的宏平均 F1 分数分别为 0.42 和 0.29。
Feb, 2022
通过众包的方式,我们发布了一个数据集,包括了 5000 个英文新闻标题的情感、情感体验者和文本线索、相关情感原因和目标,以及读者对标题情感的感知;在此基础上,我们提出了一个多阶段的注释程序,开发了语义角色结构自动预测任务的基线,并讨论了结果,此数据集支持进一步情感分类、情感强度预测、情感原因检验和定性研究。
Dec, 2019
近年来,情绪原因分析引起了研究人员的关注。为了填补现有数据集在规模和情绪类别数量上的限制,并提供更具抽象性和可推广性的根本原因,我们引入了一个由 1500 万个清理后的推文构成的大规模情绪原因数据集。我们描述了我们的筛选过程,其中包括全面的数据收集、清理、标记和验证流程,以确保数据集的可靠性和丰富性。我们提取情绪标签,并提供导致情绪的事件的抽象化摘要。最终的数据集包括超过 70 万个推文和对应的情绪 - 原因对,涵盖了 48 个情绪类别,并由人工评估员进行了验证。我们数据集的新颖之处在于它涵盖了广泛的情绪类别,并提供了抽象的情绪原因,从而促进了情绪 - 原因知识图谱的细致推理。我们的数据集将使得能够考虑不同人对同一事件的多样化情绪反应的情绪感知系统的设计成为可能。
Jun, 2024
本研究介绍了 K-HATERS,这是一种用于韩文中仇恨言论检测的新语料库,其中含有大约 192K 个新闻评论,附有针对特定目标的冒犯程度评分。该语料库是韩文中最大的冒犯性语言语料库,是首个提供针对三级李克特量表的特定目标评分的语料库,能够检测韩文中不同程度的仇恨表达。我们进行实验来展示该语料库的有效性,并与现有数据集进行比较。此外,为了解决人类注释中的潜在噪声和偏差,我们探索了一种新颖的想法,即采用认知反思测试作为标签质量的代理。研究结果表明,得分最低的个体的注释往往会导致针对特定目标群体的预测模型存在偏差,且准确性较低。本研究对于仇恨言论检测和资源构建的自然语言处理研究具有重要贡献。您可以在该 URL 访问代码和数据集。
Oct, 2023
介绍了适用于韩语模式的多标记数据集 K-MHaS,基于六种不同的指标使用韩语 BERT 模型进行评估,其中具有子字符令牌化器的 KR-BERT 优于其他模型。
Aug, 2022
介绍了 K-Act2Emo,一个包含 1,900 个间接情绪表达及其可推测的情绪的韩国常识知识图谱,将推理类型分为正面情境推理、负面情境推理和表情不起感情作用的推理,与现有的知识图谱不同,K-Act2Emo 专注于情绪上下文,并通过实验证明其在训练情绪推理模型方面的有效性。该基于 BART 模型并经过 K-Act2Emo 微调的知识模型在性能上优于各种现有的韩国大语言模型,达到了与 GPT-4 Turbo 可比较的水平。
Mar, 2024