Jun, 2024

LLM作为计分员:输出顺序对对话评估的影响

TL;DR研究通过大型语言模型(LLMs)研究提示设计对对话评估的影响。我们的研究实验了不同的提示结构,发现呈现原因和评分的顺序显著影响LLMs的评分,使用先给出原因的方法能够得到更全面的评估结果,该发现对于提高LLM的评估准确性和一致性至关重要。