Jul, 2024

MASIVE: 英语和西班牙语的开放式情感状态识别

TL;DR情感分析中,很多自然语言处理研究都集中于识别少量离散情感类别,但这些基本集合很少考虑到文本数据,并且文化、语言和方言可以影响特定情感的解释。本研究将范围扩展到包括人类用来描述自己感受经历的无限多的情感状态集合,并收集并发布了包含超过1000个独特情感状态的英语和西班牙语Reddit帖子数据集MASIVE。然后,将 extit{情感状态识别}问题定义为基于掩码跨度预测任务的语言生成模型,并发现在该任务上,较小的微调多语言模型表现优于更大的语言模型,即使对于区域特定的西班牙语情感状态也是如此。此外,我们还展示了在MASIVE上进行预训练可以提高模型在现有情感测试中的性能。最后,通过机器翻译实验,我们发现以本族语为母语的数据对于良好的任务性能至关重要。