LLM作为计分员：输出顺序对对话评估的影响

Jun, 2024

LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation

Yi-Pei Chen, KuanChao Chu, Hideki Nakayama

TL;DR研究通过大型语言模型（LLMs）研究提示设计对对话评估的影响。我们的研究实验了不同的提示结构，发现呈现原因和评分的顺序显著影响LLMs的评分，使用先给出原因的方法能够得到更全面的评估结果，该发现对于提高LLM的评估准确性和一致性至关重要。

Abstract

This research investigates the effect of prompt design on dialogue evaluation using large language models (→