UBC-DLNLP 参加 SemEval-2023 任务 12:迁移学习对非洲情感分析的影响
本研究旨在探讨如何利用多语言大型语言模型进行非预训练语言的情感分析,实验结果表明在提供的数据集中,使用数千样本的单语言微调可以获得最佳效果。
Apr, 2023
本研究利用多种多语种 XLM-R 模型和多样数据集,针对 AfriSenti-SemEval 2023 共享任务 12 的非洲语言情感分析模型进行了研究,最终在 Subtask B, Track 16: 多语言中获得了第三名的好成绩,但在某些语言表现不佳,表明需要建立更全面的数据集和模型来推进低资源非洲语言的情感分析研究。
May, 2023
AfriSenti-SemEval 分享任务 12 旨在对 12 种非洲语言进行单语情感分类(子任务 A)、多语种情感分类(子任务 B)和零样本情感分类(任务 C)的分类。我们的实验表明,使用预训练的非洲语言模型可以提高非洲语言的低资源性能,而使用适配器进行零样本任务的实验结果表明,我们能够在有限的资源下通过使用适配器获得有希望的结果。
Apr, 2023
通过 AfriSenti-SemEval 共享任务,评估了 14 种非洲语言情感分析中当前最先进的转换器模型,比较了用单一模型处理所有语言与为每种语言训练一个模型之间的性能。结果表明,对非洲语言专门开发的模型在所有任务上表现出色,对于一些样本较小的语言,一个更大的多语言模型在情感分类上可能比专门针对该语言的模型表现更好。
Oct, 2023
本文描述了我们为 SemEval-2023 任务 12 而设计的系统:对非洲语言进行情感分析。为了缓解低资源环境下标记数据和语言资源的短缺问题,我们提出了一个通用的多语言系统 SACL-XLMR,用于对低资源语言进行情感分析。我们的系统在多语言和零样本情感分类子任务中表现出色,并在零样本分类子任务中获得了官方排名的第一名。
Jun, 2023
通过 SemEval-2023 任务 12,使用 Twitter 数据组进行低资源非洲语言情感分析。使用预训练的 Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment (阿拉伯骆驼鸟 Bert)、Multilingual-BERT 和 BERT 模型对 14 种非洲语言进行情感分析。结果表明 Afro-xlmr-large 模型在大多数语言中表现更好,尼日利亚语言:豪萨语、伊博语和约鲁巴语相对于其他语言表现更好。
Apr, 2023
本研究介绍了第一个非洲中心的 SemEval 共享任务,称为 AfriSenti-SemEval,该数据集涵盖了 14 种非洲语言的情感分类挑战,并提供了具有正面、负面、中立三种标记的数据集,通过三个子任务进行测试。
Apr, 2023
通过利用语言自适应和任务自适应的预训练模型,本文针对非洲语言低资源性情感分析问题的特点,研究了基于预训练的语言模型的迁移学习方法,并发现将预训练模型适应到目标语言和任务上可以显著提高模型表现,选择具有积极转移增益的源语言可以避免干扰,这在多语言和跨语言设置中可以取得更好的结果。
Apr, 2023
本文通过跨域自适应的方式,以五种尼日利亚当地常用语言(英语,豪萨语,伊博语,奈及利亚皮钦语和约鲁巴语)为基础,创造了新的数据集 NollySenti,用来进行情感分类的任务,并通过机器学习和基于预训练模型的方式进行了广泛的实证评估。同时通过跨域自适应和跨语言自适应方法,与 Twitter 领域的表现进行比较,表明跨域转移对于同一目标领域的英语具有超过 5% 的准确度改善。而跨语言自适应的方案最大限度地降低了域差异,达到了超过 7% 的准确性提升,其中通过人的评估证实机器翻译将原始英语评论的情感保留在多数翻译语句中。
May, 2023
本文描述了对库尔德语数据的情感分析数据集的收集和注释,并探讨了几种经典的机器学习和神经网络技术以及数据增强的方法。我们证明了数据增强可以在难度较大的情况下实现高的 F1 分数和准确性。
Apr, 2023