SemEval-2023 任务 12 中的 UIO:低资源语言情感分类的多语言微调
本研究利用多种多语种 XLM-R 模型和多样数据集,针对 AfriSenti-SemEval 2023 共享任务 12 的非洲语言情感分析模型进行了研究,最终在 Subtask B, Track 16: 多语言中获得了第三名的好成绩,但在某些语言表现不佳,表明需要建立更全面的数据集和模型来推进低资源非洲语言的情感分析研究。
May, 2023
该研究通过使用六种语言模型并采用迁移学习和微调技术,开发了用于 14 种不同非洲语言情感分析的多语言模型,最终在开发和测试数据中取得了 F1 得分。结果表明跨多种语言的情感分析可以通过迁移学习和微调技术实现,该方法可以应用于其他语言和领域的情感分析任务。
Apr, 2023
AfriSenti-SemEval 分享任务 12 旨在对 12 种非洲语言进行单语情感分类(子任务 A)、多语种情感分类(子任务 B)和零样本情感分类(任务 C)的分类。我们的实验表明,使用预训练的非洲语言模型可以提高非洲语言的低资源性能,而使用适配器进行零样本任务的实验结果表明,我们能够在有限的资源下通过使用适配器获得有希望的结果。
Apr, 2023
通过利用语言自适应和任务自适应的预训练模型,本文针对非洲语言低资源性情感分析问题的特点,研究了基于预训练的语言模型的迁移学习方法,并发现将预训练模型适应到目标语言和任务上可以显著提高模型表现,选择具有积极转移增益的源语言可以避免干扰,这在多语言和跨语言设置中可以取得更好的结果。
Apr, 2023
本文描述了我们为 SemEval-2023 任务 12 而设计的系统:对非洲语言进行情感分析。为了缓解低资源环境下标记数据和语言资源的短缺问题,我们提出了一个通用的多语言系统 SACL-XLMR,用于对低资源语言进行情感分析。我们的系统在多语言和零样本情感分类子任务中表现出色,并在零样本分类子任务中获得了官方排名的第一名。
Jun, 2023
通过 SemEval-2023 任务 12,使用 Twitter 数据组进行低资源非洲语言情感分析。使用预训练的 Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment (阿拉伯骆驼鸟 Bert)、Multilingual-BERT 和 BERT 模型对 14 种非洲语言进行情感分析。结果表明 Afro-xlmr-large 模型在大多数语言中表现更好,尼日利亚语言:豪萨语、伊博语和约鲁巴语相对于其他语言表现更好。
Apr, 2023
本研究介绍了第一个非洲中心的 SemEval 共享任务,称为 AfriSenti-SemEval,该数据集涵盖了 14 种非洲语言的情感分类挑战,并提供了具有正面、负面、中立三种标记的数据集,通过三个子任务进行测试。
Apr, 2023
通过 AfriSenti-SemEval 共享任务,评估了 14 种非洲语言情感分析中当前最先进的转换器模型,比较了用单一模型处理所有语言与为每种语言训练一个模型之间的性能。结果表明,对非洲语言专门开发的模型在所有任务上表现出色,对于一些样本较小的语言,一个更大的多语言模型在情感分类上可能比专门针对该语言的模型表现更好。
Oct, 2023
通过使用多语种词典进行预训练,本文在低资源语言中增强了多语种语言模型的功能,在 34 种语言中进行了零样本情感分析任务,包括 6 种高 / 中资源语言,25 种低资源语言和 3 个代码混合数据集。结果显示,使用多语种词典进行预训练能够实现更好的零样本性能,而不使用句级情感数据,相比于基于英文情感数据集和大语言模型如 GPT-3.5,BLOOMZ 和 XGLM 的微调模型。这些发现适用于涉及高资源语言的未知低资源语言到代码混合场景。
Feb, 2024
本文介绍了 AfriSenti 数据集,该数据集由 14 种非洲语言的 110,000 多个推文组成,为四个语系中的 14 种非洲语言提供了 14 个情感数据集,并由母语为非洲语的人进行了注释。它用于 SemEval 2023 任务 12,这是第一个非洲中心的 SemEval 共享任务,并描述了数据收集方法,注释过程以及策划每个数据集时遇到的相关挑战。
Feb, 2023