跨多种非洲语言的情感分析:当前基准
本文介绍了AfriSenti数据集,该数据集由14种非洲语言的110,000多个推文组成,为四个语系中的14种非洲语言提供了14个情感数据集,并由母语为非洲语的人进行了注释。它用于SemEval 2023任务12,这是第一个非洲中心的SemEval共享任务,并描述了数据收集方法,注释过程以及策划每个数据集时遇到的相关挑战。
Feb, 2023
AfriSenti-SemEval 分享任务 12 旨在对 12 种非洲语言进行单语情感分类(子任务 A)、多语种情感分类(子任务 B)和零样本情感分类(任务 C)的分类。我们的实验表明,使用预训练的非洲语言模型可以提高非洲语言的低资源性能,而使用适配器进行零样本任务的实验结果表明,我们能够在有限的资源下通过使用适配器获得有希望的结果。
Apr, 2023
通过 SemEval-2023 任务12,使用 Twitter 数据组进行低资源非洲语言情感分析。使用预训练的 Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment (阿拉伯骆驼鸟Bert)、Multilingual-BERT和BERT模型对14种非洲语言进行情感分析。结果表明 Afro-xlmr-large 模型在大多数语言中表现更好,尼日利亚语言:豪萨语、伊博语和约鲁巴语相对于其他语言表现更好。
Apr, 2023
本研究旨在探讨如何利用多语言大型语言模型进行非预训练语言的情感分析,实验结果表明在提供的数据集中,使用数千样本的单语言微调可以获得最佳效果。
Apr, 2023
本研究利用多种多语种XLM-R模型和多样数据集,针对AfriSenti-SemEval 2023共享任务12的非洲语言情感分析模型进行了研究,最终在 Subtask B, Track 16: 多语言中获得了第三名的好成绩,但在某些语言表现不佳,表明需要建立更全面的数据集和模型来推进低资源非洲语言的情感分析研究。
May, 2023
该研究提供了一个由79个数据集组成的开放性跨语言语料库,可用于培训情感模型,同时展现了基于不同基础模型、训练目标、数据集集合和微调策略所进行的数百次实验的多方面情感分类基准。
Jun, 2023
本文研究了跨多语言数据集及经过机器翻译的文本中,变压器模型在情感分析任务中的表现,并通过比较这些模型在不同语言环境中的效果,洞察其性能变化对情感分析跨多种语言的潜在影响,同时还探讨了其缺点及未来研究的潜在方向。
May, 2024
本研究针对高资源语言模型在非洲背景下的不足,提出了InkubaLM,一个具有4亿参数的小型语言模型,能够在机器翻译、问答和情感分析等任务上表现出色,甚至超越许多大型模型。该模型具有高效和可获取性,为低资源语言的研究和开发提供了重要推动。
Aug, 2024
本研究针对高资源语言模型在非洲背景下的不足,提出InkubaLM,一种仅有4亿参数的小型语言模型。该模型在机器翻译、问答和情感分析等任务中表现出色,且对多种语言保持一致性,挑战了有效语言模型需依赖丰厚资源的传统观念。
Aug, 2024
本研究解决了南非和刚果民主共和国在AI驱动的翻译和情感分析中因缺乏准确标记数据而面临的挑战。通过开发一个面向法语和Tshiluba的多语言词典,并结合多种机器学习模型,显著增强了对低资源语言的情感分类能力,结果显示BERT模型的表现尤为优异,具有高达99%的准确率,推动了未来对弱势语言支持的AI模型的发展。
Nov, 2024