大规模多语言情感分类器评估
该研究分析使用不同语言的大量手动标记的推文作为训练数据构建自动分类模型时,训练数据的质量和数量对于分类模型的质量比所使用的模型类型更为重要,并且当训练集的大小足够大时,模型的性能接近于标注者一致性,但定期监视标注者的一致性是非常重要的,从而改善训练数据集和模型性能,最后我们还表明,有强有力的证据表明,人们认为情感类别(消极的,中性的和积极的)是有序的。
Feb, 2016
本文提出了一种新的多语言情感分类方法,使用了大量的弱监督数据训练多层卷积网络,通过在多种语言数据集上进行充分的评估,证明该方法的优异性能,达到了同类研究的最高水平。
Mar, 2017
本研究旨在探讨如何利用多语言大型语言模型进行非预训练语言的情感分析,实验结果表明在提供的数据集中,使用数千样本的单语言微调可以获得最佳效果。
Apr, 2023
该研究提供了一个由79个数据集组成的开放性跨语言语料库,可用于培训情感模型,同时展现了基于不同基础模型、训练目标、数据集集合和微调策略所进行的数百次实验的多方面情感分类基准。
Jun, 2023
通过AfriSenti-SemEval共享任务,评估了14种非洲语言情感分析中当前最先进的转换器模型,比较了用单一模型处理所有语言与为每种语言训练一个模型之间的性能。结果表明,对非洲语言专门开发的模型在所有任务上表现出色,对于一些样本较小的语言,一个更大的多语言模型在情感分类上可能比专门针对该语言的模型表现更好。
Oct, 2023
通过使用多语种词典进行预训练,本文在低资源语言中增强了多语种语言模型的功能,在34种语言中进行了零样本情感分析任务,包括6种高/中资源语言,25种低资源语言和3个代码混合数据集。结果显示,使用多语种词典进行预训练能够实现更好的零样本性能,而不使用句级情感数据,相比于基于英文情感数据集和大语言模型如GPT-3.5,BLOOMZ和XGLM的微调模型。这些发现适用于涉及高资源语言的未知低资源语言到代码混合场景。
Feb, 2024
社交媒体的快速发展使得我们能够分析用户意见。尽管常用语言的情感分析已经取得了显著的进展,但由于资源限制,低资源语言像阿拉伯语等仍然很少有研究。本研究探讨了SemEval-17和阿拉伯语情感推文数据集上的推文文本的情感分析,并研究了四种预训练语言模型以及提出了两种集成语言模型。我们的发现包括单语言模型表现出更好的性能,集成模型优于基线,而多数投票集成模型胜过英语。
Mar, 2024
本文研究了跨多语言数据集及经过机器翻译的文本中,变压器模型在情感分析任务中的表现,并通过比较这些模型在不同语言环境中的效果,洞察其性能变化对情感分析跨多种语言的潜在影响,同时还探讨了其缺点及未来研究的潜在方向。
May, 2024
在跨语言情感分析领域,公共的小型多语言语言模型在零样本跨语言性能上优于大型通用语言模型,但在少样本跨语言设置中,公共的大型通用语言模型展现出更高的适应潜力。
Jun, 2024
本研究针对立陶宛在线评论的情感分析问题,填补了当前对这一语言的研究空白。我们首次应用了预训练的多语言大型语言模型(LLMs),特别关注于微调BERT和T5模型,取得了显著的识别准确率。该研究的结果表明,微调后的模型在情感不模糊的情况下表现优异,并超越了目前最先进的商业模型GPT-4。
Jul, 2024