yosm: 一份新的针对电影评论的约鲁巴情感语料库
介绍了首个针对尼日利亚四种最常用语言(豪萨语、伊博语、尼日利亚皮钦语、约鲁巴语)的大规模人工标注推特情感数据集,并对收集、处理和标注的方法进行了说明。同时对预训练模型和迁移策略进行了评估,并发布数据集、训练模型、情感词典和代码以促进对低资源语言情感分析的研究。
Jan, 2022
本文通过跨域自适应的方式,以五种尼日利亚当地常用语言(英语,豪萨语,伊博语,奈及利亚皮钦语和约鲁巴语)为基础,创造了新的数据集 NollySenti,用来进行情感分类的任务,并通过机器学习和基于预训练模型的方式进行了广泛的实证评估。同时通过跨域自适应和跨语言自适应方法,与 Twitter 领域的表现进行比较,表明跨域转移对于同一目标领域的英语具有超过 5% 的准确度改善。而跨语言自适应的方案最大限度地降低了域差异,达到了超过 7% 的准确性提升,其中通过人的评估证实机器翻译将原始英语评论的情感保留在多数翻译语句中。
May, 2023
该论文介绍了阿尔巴尼亚语情感分析语料库 AlbMoRe,其中包含 800 个被标记为正面或负面的电影评论文本,并报告了使用这些样本训练的传统机器学习分类器的初步结果,可作为未来研究实验的比较基线。
Jun, 2023
本研究提出了一个基于用户评价的新型多类乌尔都数据集,旨在为乌尔都情感分析构建手动注释的数据集,并建立基准结果。使用五种不同的词库和基于规则的算法,最终实验结果表明,Flair 的准确率为 70%,优于其他测试的算法。
Jul, 2022
本文比较了多种机器学习方法以实现情感分析,并将它们结合起来以实现最佳结果,结果表明,很容易重现,这将简化进一步发展状态的艺术,因为其他研究人员可以轻松地将他们的技术与我们的技术相结合。
Dec, 2014
本篇研究的目标是创建一个通用的情感词典(lexicon)来判断以 Igbo 语言写成的文件的情感,而无需将其翻译成英语。该研究使用 Liu 自动翻译的词典和手动添加的 Igbo 本地词汇构建了一个名为 IgboSentilex 的情感词典,并在 BBC Igbo 新闻频道进行了性能测试。结果表明,与其他通用情感词典相比,平均极性一致性高达 95.75%。
Apr, 2020
情感分析是一项成熟的自然语言处理任务,其中情感极性分类是最受欢迎和代表性的任务之一。然而,尽管在这个领域预训练的语言模型取得了成功,但它们往往无法完全捕捉情感分析的更广泛复杂性。为了解决这个问题,我们提出了一项名为 SOUL 的新任务。SOUL 通过两个子任务 —— 评论理解和理由生成,旨在评估情感理解能力。评论理解旨在验证基于评论文本的主观信息的陈述,而理由生成要求模型为其情感预测提供解释。通过标注一个包含 15,028 个陈述的新数据集,综合评估的结果显示,SOUL 对于小型和大型语言模型而言都是一项具有挑战性的任务,性能差距高达 27%。此外,与人类专家和 GPT-4 进行的评估凸显了小型语言模型在生成基于推理的理由方面的局限性。这些发现突显了现有模型在 SOUL 任务上的挑战性质,强调了在情感分析中进一步提升以应对其复杂性的需求。新数据集和代码可在此 URL 上获得。
Oct, 2023
通过 AfriSenti-SemEval 共享任务,评估了 14 种非洲语言情感分析中当前最先进的转换器模型,比较了用单一模型处理所有语言与为每种语言训练一个模型之间的性能。结果表明,对非洲语言专门开发的模型在所有任务上表现出色,对于一些样本较小的语言,一个更大的多语言模型在情感分类上可能比专门针对该语言的模型表现更好。
Oct, 2023
本文介绍了 AfriSenti 数据集,该数据集由 14 种非洲语言的 110,000 多个推文组成,为四个语系中的 14 种非洲语言提供了 14 个情感数据集,并由母语为非洲语的人进行了注释。它用于 SemEval 2023 任务 12,这是第一个非洲中心的 SemEval 共享任务,并描述了数据收集方法,注释过程以及策划每个数据集时遇到的相关挑战。
Feb, 2023