Jan, 2024
MT-Eval: 大型语言模型的多轮能力评估基准
MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models
Wai-Chung Kwan, Xingshan Zeng, Yuxin Jiang, Yufei Wang, Liangyou Li...
TL;DR通过分析人类 - 大型语言模型对话,我们将互动模式分为回忆、扩展、细化和后续四种类型,构建多轮查询来评估多轮会话能力,结果显示大多数模型在多轮设置中性能下降,影响因素为相关内容距离和错误传播敏感性。