使用多语言 BERT 的斯瓦希里语情感分类
通过 AfriSenti-SemEval 共享任务,评估了 14 种非洲语言情感分析中当前最先进的转换器模型,比较了用单一模型处理所有语言与为每种语言训练一个模型之间的性能。结果表明,对非洲语言专门开发的模型在所有任务上表现出色,对于一些样本较小的语言,一个更大的多语言模型在情感分类上可能比专门针对该语言的模型表现更好。
Oct, 2023
本研究介绍了第一个非洲中心的 SemEval 共享任务,称为 AfriSenti-SemEval,该数据集涵盖了 14 种非洲语言的情感分类挑战,并提供了具有正面、负面、中立三种标记的数据集,通过三个子任务进行测试。
Apr, 2023
本文介绍了 AfriSenti 数据集,该数据集由 14 种非洲语言的 110,000 多个推文组成,为四个语系中的 14 种非洲语言提供了 14 个情感数据集,并由母语为非洲语的人进行了注释。它用于 SemEval 2023 任务 12,这是第一个非洲中心的 SemEval 共享任务,并描述了数据收集方法,注释过程以及策划每个数据集时遇到的相关挑战。
Feb, 2023
本文提出了一种简单易用的多语言情感分析框架,旨在作为情感分析测试基线和构建新情感分析系统的起点。该框架经过在 8 种不同语言的比较中,在其中三种语言的国际竞赛中名列前茅,在其他语言中也超越了报告的结果。
Dec, 2016
本研究提出了一个基于用户评价的新型多类乌尔都数据集,旨在为乌尔都情感分析构建手动注释的数据集,并建立基准结果。使用五种不同的词库和基于规则的算法,最终实验结果表明,Flair 的准确率为 70%,优于其他测试的算法。
Jul, 2022
AfriSenti-SemEval 分享任务 12 旨在对 12 种非洲语言进行单语情感分类(子任务 A)、多语种情感分类(子任务 B)和零样本情感分类(任务 C)的分类。我们的实验表明,使用预训练的非洲语言模型可以提高非洲语言的低资源性能,而使用适配器进行零样本任务的实验结果表明,我们能够在有限的资源下通过使用适配器获得有希望的结果。
Apr, 2023
介绍了首个针对尼日利亚四种最常用语言(豪萨语、伊博语、尼日利亚皮钦语、约鲁巴语)的大规模人工标注推特情感数据集,并对收集、处理和标注的方法进行了说明。同时对预训练模型和迁移策略进行了评估,并发布数据集、训练模型、情感词典和代码以促进对低资源语言情感分析的研究。
Jan, 2022
通过 SemEval-2023 任务 12,使用 Twitter 数据组进行低资源非洲语言情感分析。使用预训练的 Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment (阿拉伯骆驼鸟 Bert)、Multilingual-BERT 和 BERT 模型对 14 种非洲语言进行情感分析。结果表明 Afro-xlmr-large 模型在大多数语言中表现更好,尼日利亚语言:豪萨语、伊博语和约鲁巴语相对于其他语言表现更好。
Apr, 2023
本研究利用多种多语种 XLM-R 模型和多样数据集,针对 AfriSenti-SemEval 2023 共享任务 12 的非洲语言情感分析模型进行了研究,最终在 Subtask B, Track 16: 多语言中获得了第三名的好成绩,但在某些语言表现不佳,表明需要建立更全面的数据集和模型来推进低资源非洲语言的情感分析研究。
May, 2023
社交媒体的快速发展使得我们能够分析用户意见。尽管常用语言的情感分析已经取得了显著的进展,但由于资源限制,低资源语言像阿拉伯语等仍然很少有研究。本研究探讨了 SemEval-17 和阿拉伯语情感推文数据集上的推文文本的情感分析,并研究了四种预训练语言模型以及提出了两种集成语言模型。我们的发现包括单语言模型表现出更好的性能,集成模型优于基线,而多数投票集成模型胜过英语。
Mar, 2024