Oct, 2023

OpinSummEval: 重新审视舆情摘要自动评估

TL;DR观点总结与其他类型的总结任务有所不同,因为其独特关注于方面和情感。本文介绍了 OpinSummEval,它是一个包含人工评价和 14 个观点总结模型输出的数据集。我们进一步探讨了 24 个自动评估指标与人工评分之间在四个维度上的相关性。结果表明,基于神经网络的指标通常优于非神经网络的指标。然而,即使是构建在强大的模型基础之上,如 BART 和 GPT-3/3.5,也不能在所有维度上一致地与人工评分相关,凸显了观点总结自动评估方法的进步需求。代码和数据可在此 URL 公开获取。