BriefGPT.xyz
Ask
alpha
关键词
mt-bench-101
搜索结果 - 1
MT-Bench-101:用于多轮对话评估大型语言模型的细粒度基准测试
通过对真实的多轮对话数据的详细分析,在多轮对话方面构建了一个包含 1388 个多轮对话中 4208 个轮次的三层次能力分类系统,并评估了 21 个流行的大型语言模型在多任务评估基准 MT-Bench-101 上的能力以及对话中的性能差异。进
→
PDF
4 months ago
Prev
Next