Feb, 2024
自动评估方法在面向指导型语言模型中的可靠性研究
How Reliable Are Automatic Evaluation Methods for Instruction-Tuned
LLMs?
TL;DR我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究,发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断,但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。