Oct, 2023

大型语言模型用于方面级情感分析

TL;DR使用零痕迹、少痕迹和微调模型在纵向情感分析任务上评估了GPT-4和GPT-3.5的性能,结果显示微调的GPT-3.5在SemEval-2014任务4的联合方面术语提取和极性分类任务上获得了83.8的最优F1分数,比InstructABSA提高了5.7%,但模型参数增加了1000倍,推理成本也增加了。我们讨论了不同模型的性价比和分析了它们的典型错误。同时,我们的研究结果表明,在零痕迹和少痕迹环境中,详细提示可以提高性能,但对于微调模型来说并非必要。这些证据对于在ABSA中使用LLMs时面临提示工程和微调选择的实践者具有相关性。