Oct, 2024

单一真实值不足:在基于方面的情感分析评估中增加语言变异性

TL;DR该研究解决了基于方面的情感分析(ABSA)评估中仅依赖单一真实值的问题,提出了一种新颖的自动化流程,通过增加替代有效响应来扩展现有测试集。这一方法提高了对语言模型的评估公平性,实验结果显示,与传统测试集相比,人类一致性有显著提高,表明大型语言模型在ABSA任务中的能力可能被低估。