一个面向 Igbo 语的通用情感词汇表的开发
介绍了首个针对尼日利亚四种最常用语言(豪萨语、伊博语、尼日利亚皮钦语、约鲁巴语)的大规模人工标注推特情感数据集,并对收集、处理和标注的方法进行了说明。同时对预训练模型和迁移策略进行了评估,并发布数据集、训练模型、情感词典和代码以促进对低资源语言情感分析的研究。
Jan, 2022
该研究论文介绍了关于自然语言处理在非洲语言的应用的研究进展,指出非洲语言的自然语言处理技术和工具存在落后的现象。在此背景下,作者提出了建立一个 Igbo 语言的机器翻译基准数据集的思路,从而提升非洲语言的自然语言技术水平。
Apr, 2020
为了发展 Igbo 语言的语言技术以促进沟通、学习和保护,本研究通过构建多方言的 Igbo-API 数据集,并应用于 Igbo 语义词典和机器翻译的研究中,有效地解决了 Igbo 语言技术面临的方言差异问题。
May, 2024
通过 AfriSenti-SemEval 共享任务,评估了 14 种非洲语言情感分析中当前最先进的转换器模型,比较了用单一模型处理所有语言与为每种语言训练一个模型之间的性能。结果表明,对非洲语言专门开发的模型在所有任务上表现出色,对于一些样本较小的语言,一个更大的多语言模型在情感分类上可能比专门针对该语言的模型表现更好。
Oct, 2023
本文介绍了 AfriSenti 数据集,该数据集由 14 种非洲语言的 110,000 多个推文组成,为四个语系中的 14 种非洲语言提供了 14 个情感数据集,并由母语为非洲语的人进行了注释。它用于 SemEval 2023 任务 12,这是第一个非洲中心的 SemEval 共享任务,并描述了数据收集方法,注释过程以及策划每个数据集时遇到的相关挑战。
Feb, 2023
本研究主要关注于探索使用预先训练的语言模型 mBERT 和 AfriBERTa 进行情感分析,以研究那些处理不足的数据集和语言架构上未完成的非洲语言如 Yoruba 的影片评论。
Apr, 2022
本研究介绍了第一个非洲中心的 SemEval 共享任务,称为 AfriSenti-SemEval,该数据集涵盖了 14 种非洲语言的情感分类挑战,并提供了具有正面、负面、中立三种标记的数据集,通过三个子任务进行测试。
Apr, 2023
本文通过跨域自适应的方式,以五种尼日利亚当地常用语言(英语,豪萨语,伊博语,奈及利亚皮钦语和约鲁巴语)为基础,创造了新的数据集 NollySenti,用来进行情感分类的任务,并通过机器学习和基于预训练模型的方式进行了广泛的实证评估。同时通过跨域自适应和跨语言自适应方法,与 Twitter 领域的表现进行比较,表明跨域转移对于同一目标领域的英语具有超过 5% 的准确度改善。而跨语言自适应的方案最大限度地降低了域差异,达到了超过 7% 的准确性提升,其中通过人的评估证实机器翻译将原始英语评论的情感保留在多数翻译语句中。
May, 2023
本研究探讨了如何在 Pidgin 语境下理解情感分析,提出了一个 300 词汇表和 14,000 条推文的 Nigerian Pidgin 情感标签数据集,指出了将传统英语情感分析模型直接用于 Nigeria Pidgin 文本的缺陷。
Mar, 2020
通过使用领域特定的词向量和标签传播框架,结合少量种子单词,创造与手动资源相媲美的精准的领域特定情感词典,用于量化情感在时间和社区之间的差异,并在此基础上,提出了历史情感词汇表和社区特定情感词汇表。
Jun, 2016