Jan, 2024

MT-Eval: 大型语言模型的多轮能力评估基准

TL;DR通过分析人类 - 大型语言模型对话,我们将互动模式分为回忆、扩展、细化和后续四种类型,构建多轮查询来评估多轮会话能力,结果显示大多数模型在多轮设置中性能下降,影响因素为相关内容距离和错误传播敏感性。