EMNLPOct, 2023

SOUL: 语言情感和观点理解之路

TL;DR情感分析是一项成熟的自然语言处理任务,其中情感极性分类是最受欢迎和代表性的任务之一。然而,尽管在这个领域预训练的语言模型取得了成功,但它们往往无法完全捕捉情感分析的更广泛复杂性。为了解决这个问题,我们提出了一项名为 SOUL 的新任务。SOUL 通过两个子任务 —— 评论理解和理由生成,旨在评估情感理解能力。评论理解旨在验证基于评论文本的主观信息的陈述,而理由生成要求模型为其情感预测提供解释。通过标注一个包含 15,028 个陈述的新数据集,综合评估的结果显示,SOUL 对于小型和大型语言模型而言都是一项具有挑战性的任务,性能差距高达 27%。此外,与人类专家和 GPT-4 进行的评估凸显了小型语言模型在生成基于推理的理由方面的局限性。这些发现突显了现有模型在 SOUL 任务上的挑战性质,强调了在情感分析中进一步提升以应对其复杂性的需求。新数据集和代码可在此 URL 上获得。