BriefGPT.xyz
Jun, 2024
LLM作为计分员:输出顺序对对话评估的影响
LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation
HTML
PDF
Yi-Pei Chen, KuanChao Chu, Hideki Nakayama
TL;DR
研究通过大型语言模型(LLMs)研究提示设计对对话评估的影响。我们的研究实验了不同的提示结构,发现呈现原因和评分的顺序显著影响LLMs的评分,使用先给出原因的方法能够得到更全面的评估结果,该发现对于提高LLM的评估准确性和一致性至关重要。
Abstract
This research investigates the effect of
prompt design
on
dialogue evaluation
using
large language models
(
→