MT-Bench-101：用于多轮对话评估大型语言模型的细粒度基准测试

Feb, 2024

MT-Bench-101：用于多轮对话评估大型语言模型的细粒度基准测试

MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues

Ge Bai, Jie Liu, Xingyuan Bu, Yancheng He, Jiaheng Liu...

TL;DR通过对真实的多轮对话数据的详细分析，在多轮对话方面构建了一个包含 1388 个多轮对话中 4208 个轮次的三层次能力分类系统，并评估了 21 个流行的大型语言模型在多任务评估基准 MT-Bench-101 上的能力以及对话中的性能差异。进一步的分析表明，无论是使用常见的对齐技术还是特定于聊天的设计，都没有明显改善大型语言模型的多轮对话能力。广泛的案例研究表明，我们设计的任务能够准确评估相应的多轮对话能力。

Abstract

The advent of large language models (LLMs) has drastically enhanced dialogue systems. However, comprehensively evaluating the dialogue abilities of LLMs remains a challenge. Previous benchmarks have primarily foc

large language models dialogue abilities multi-turn dialogues mt-bench-101 llms performance

发现论文，激发创造

MT-Eval: 大型语言模型的多轮能力评估基准

通过分析人类 - 大型语言模型对话，我们将互动模式分为回忆、扩展、细化和后续四种类型，构建多轮查询来评估多轮会话能力，结果显示大多数模型在多轮设置中性能下降，影响因素为相关内容距离和错误传播敏感性。

Jan, 2024

BotChat: 评估 LLMs 在进行多轮对话方面的能力

利用 GPT-4 对人类风格的多轮对话进行评估，发现大语言模型在生成多轮对话方面具有出色的质量，明显优于其他模型。

Oct, 2023

分析多语言 LLM 在多轮指令跟踪中的能力：阿拉伯语的案例研究

在小众语言如阿拉伯语中，我们详细研究了开放式大型语言模型在回应多轮指令方面的能力，并利用自定义的阿拉伯文翻译的 MT-Bench 基准套件和 GPT-4 作为评估工具，对英文和阿拉伯文进行了综合评估和比较，结果表明在不同任务类别（逻辑和文学）以英文或阿拉伯文指令时，模型的回答会有所差异。我们发现，使用多语言和多轮次数据集进行微调的基础模型与从头开始使用多语言数据训练的模型具有竞争力。最后，我们假设一组小型、开放式大型语言模型在基准测试中具有与专有模型相当的性能。

Oct, 2023

MINT: 使用工具和语言反馈评估多轮交互中的 LLMs

通过使用工具和自然语言反馈，MINT 基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力，并从 20 个开源和闭源的语言模型分析中发现，在工具交互和自然语言反馈的情况下，LLMs 的性能有所提升。

Sep, 2023

LLM 对于面向任务的对话系统是否足够？

本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力，发现在显式信仰状态跟踪方面，它们表现不如专门的任务特定模型，但是如果给出正确的插槽值，它们表现出将对话引导到成功结局的能力，并且在有真实信仰状态分布或域内示例的情况下，这种能力得到了改进。

Apr, 2023

使用大型语言模型评估聊天的三种方法

本文通过三种不同的方法，基于大型语言模型（LLMs）对于 ChatGPT 响应的逐轮质量进行预测，并使用动态少量样本来改善基准，并分析了其他两种方法的性能并提出未来研究的改进。研究表明，Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距，但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。

Aug, 2023

MathChat：多轮交互中数学推理和指令遵循的基准评估

这篇论文介绍了一个专门设计用来评估大型语言模型在更广泛的数学任务上的 MathChat 基准测试，并观察到这些模型在单回合问题回答方面表现出色，但在需要持续推理和对话理解的复杂场景下性能显著下降。通过开发 MathChat sync 这样一个用于提升模型对话能力和指令跟随能力的合成对话型数学数据集，实验结果强调了使用类似 MathChat sync 这样多样化的对话指令微调数据集训练大型语言模型的必要性。作者认为这项工作为改进大型语言模型的多轮数学推理能力指明了一个有希望的方向，推动了更擅长交互式数学问题解决和实际应用的大型语言模型的发展。

May, 2024

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于 LLM 的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM 评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

JudgeLM：经过优化的大型语言模型是可扩展的法官

通过对大规模语言模型进行微调以构建可扩展的评判模型，提出了一种有效评估大规模语言模型的方法，并成功应用于新的基准测试中，获得了最佳表现。

Oct, 2023

基于 LLM 的多轮对话系统的最新进展综述

本研究综述了基于大型语言模型 (LLMs) 的多轮对话系统的研究进展，包括适应 LLMs 到下游任务的方法，最近在多轮对话系统中的 LLM-based 开放领域对话 (ODD) 和任务导向对话 (TOD) 系统的进展，并且讨论了 LLMs 的发展和对多轮对话系统需求增加所引起的一些未来重点和最近的研究问题。

Feb, 2024