Oct, 2023

TIGERScore:建立可解释的度量标准 用于所有文本生成任务

TL;DR通过自然语言指示引导的训练度量 TIGERScore 对广泛的文本生成任务进行解释性和无参考评估,该度量基于经过精心策划的指示调优数据集 MetricInstruct 进行 LLaMA 训练,覆盖 6 个文本生成任务和 23 个文本生成数据集,通过与人类评分的相关性评估和定性评估结果表明,TIGERScore 在这些数据集上能够取得最高的斯皮尔曼相关性,显著优于其他度量标准,并且作为无参考度量标准,其相关性甚至可以超过最佳的基于参考的度量标准,通过这些实验结果,我们相信 TIGERScore 展示了建立通用的可解释性度量标准来评估任何文本生成任务的可能性。