Feb, 2024

低资源语言中使用多语情感词典的零样本情感分析

TL;DR通过使用多语种词典进行预训练,本文在低资源语言中增强了多语种语言模型的功能,在34种语言中进行了零样本情感分析任务,包括6种高/中资源语言,25种低资源语言和3个代码混合数据集。结果显示,使用多语种词典进行预训练能够实现更好的零样本性能,而不使用句级情感数据,相比于基于英文情感数据集和大语言模型如GPT-3.5,BLOOMZ和XGLM的微调模型。这些发现适用于涉及高资源语言的未知低资源语言到代码混合场景。