SemEval-2023任务12中的UIO:低资源语言情感分类的多语言微调
本文通过多语言自适应微调方法,改进了前馈神经网络(AfriBERTa和XLM-R)模型,使其适配17种最常用的非洲语言及其他3种在非洲大陆广泛使用的高资源语言,在NER、新闻主题分类和情感分类等自然语言处理任务中具有竞争性,且需要的磁盘空间明显少于单个语言的自适应微调方法。同时,本文的适配模型还能够改善参数效率微调方法的零-shot跨语言转移能力。
Apr, 2022
本文介绍了AfriSenti数据集,该数据集由14种非洲语言的110,000多个推文组成,为四个语系中的14种非洲语言提供了14个情感数据集,并由母语为非洲语的人进行了注释。它用于SemEval 2023任务12,这是第一个非洲中心的SemEval共享任务,并描述了数据收集方法,注释过程以及策划每个数据集时遇到的相关挑战。
Feb, 2023
AfriSenti-SemEval 分享任务 12 旨在对 12 种非洲语言进行单语情感分类(子任务 A)、多语种情感分类(子任务 B)和零样本情感分类(任务 C)的分类。我们的实验表明,使用预训练的非洲语言模型可以提高非洲语言的低资源性能,而使用适配器进行零样本任务的实验结果表明,我们能够在有限的资源下通过使用适配器获得有希望的结果。
Apr, 2023
本研究介绍了第一个非洲中心的SemEval共享任务,称为AfriSenti-SemEval,该数据集涵盖了14种非洲语言的情感分类挑战,并提供了具有正面、负面、中立三种标记的数据集,通过三个子任务进行测试。
Apr, 2023
该研究通过使用六种语言模型并采用迁移学习和微调技术,开发了用于14种不同非洲语言情感分析的多语言模型,最终在开发和测试数据中取得了F1得分。结果表明跨多种语言的情感分析可以通过迁移学习和微调技术实现,该方法可以应用于其他语言和领域的情感分析任务。
Apr, 2023
通过 SemEval-2023 任务12,使用 Twitter 数据组进行低资源非洲语言情感分析。使用预训练的 Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment (阿拉伯骆驼鸟Bert)、Multilingual-BERT和BERT模型对14种非洲语言进行情感分析。结果表明 Afro-xlmr-large 模型在大多数语言中表现更好,尼日利亚语言:豪萨语、伊博语和约鲁巴语相对于其他语言表现更好。
Apr, 2023
通过利用语言自适应和任务自适应的预训练模型,本文针对非洲语言低资源性情感分析问题的特点,研究了基于预训练的语言模型的迁移学习方法,并发现将预训练模型适应到目标语言和任务上可以显著提高模型表现,选择具有积极转移增益的源语言可以避免干扰,这在多语言和跨语言设置中可以取得更好的结果。
Apr, 2023
本研究利用多种多语种XLM-R模型和多样数据集,针对AfriSenti-SemEval 2023共享任务12的非洲语言情感分析模型进行了研究,最终在 Subtask B, Track 16: 多语言中获得了第三名的好成绩,但在某些语言表现不佳,表明需要建立更全面的数据集和模型来推进低资源非洲语言的情感分析研究。
May, 2023
通过AfriSenti-SemEval共享任务,评估了14种非洲语言情感分析中当前最先进的转换器模型,比较了用单一模型处理所有语言与为每种语言训练一个模型之间的性能。结果表明,对非洲语言专门开发的模型在所有任务上表现出色,对于一些样本较小的语言,一个更大的多语言模型在情感分类上可能比专门针对该语言的模型表现更好。
Oct, 2023
本研究针对在推特/X数据中应用的基于方面的情感分析(ABSA),解决了小语种情感分类的不足问题。通过微调多种大型语言模型,发现部分模型在多语言推特任务中的微调表现优越,可以在较小的训练集上达到最新的技术水平。研究结果揭示了最佳设置的组合,可能对小语种情感分析领域产生重要影响。
Aug, 2024