BriefGPT.xyz
大模型
Ask
alpha
关键词
mt-eval
搜索结果 - 1
MT-Eval: 大型语言模型的多轮能力评估基准
通过分析人类 - 大型语言模型对话,我们将互动模式分为回忆、扩展、细化和后续四种类型,构建多轮查询来评估多轮会话能力,结果显示大多数模型在多轮设置中性能下降,影响因素为相关内容距离和错误传播敏感性。
PDF
5 months ago
Prev
Next