Feb, 2024

一次创意主导的全部:用于观点摘要评估的 LLMs

TL;DR我们使用 SUMMEVAL-OP 数据集评估意见摘要,使用大型语言模型作为参考自由指标,发现 Op-I-Prompt 是评估意见摘要的良好替代方法,与人类判断的平均斯皮尔曼相关性达到 0.70,超过了以前的所有方法。这是我们在意见摘要领域首次探索使用开源和闭源模型的大型语言模型作为评估器。