May, 2023
LLM-Eval:用于大型语言模型开放域对话的统一多维自动评估
LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain
Conversations with Large Language Models
TL;DR本文提出了LLM-Eval,一种针对使用大型语言模型(LLM)的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面,LLM-Eval可以在单个模型调用中进行。我们对LLM-Eval在各种基准数据集上的性能进行了全面评估,表明它相对于最先进的评估方法具有高效性和适应性。同时,该分析还强调了选择适当的LLM和解码策略以获得准确评估结果的重要性。LMM-Eval为评估开放领域对话系统提供了一种多功能且强大的解决方案,可以简化评估过程并在不同场景中提供一致的性能。