Feb, 2024

MT-Bench-101:用于多轮对话评估大型语言模型的细粒度基准测试

TL;DR通过对真实的多轮对话数据的详细分析,在多轮对话方面构建了一个包含 1388 个多轮对话中 4208 个轮次的三层次能力分类系统,并评估了 21 个流行的大型语言模型在多任务评估基准 MT-Bench-101 上的能力以及对话中的性能差异。进一步的分析表明,无论是使用常见的对齐技术还是特定于聊天的设计,都没有明显改善大型语言模型的多轮对话能力。广泛的案例研究表明,我们设计的任务能够准确评估相应的多轮对话能力。