MT-Eval: 大型语言模型的多轮能力评估基准

Jan, 2024

MT-Eval: 大型语言模型的多轮能力评估基准

MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models

Wai-Chung Kwan, Xingshan Zeng, Yuxin Jiang, Yufei Wang, Liangyou Li...

TL;DR通过分析人类 - 大型语言模型对话，我们将互动模式分为回忆、扩展、细化和后续四种类型，构建多轮查询来评估多轮会话能力，结果显示大多数模型在多轮设置中性能下降，影响因素为相关内容距离和错误传播敏感性。

Abstract

large language models (LLMs) are increasingly relied upon for complex multi-turn conversations across diverse real-world applications. However, existing benchmarks predominantly focus on single-turn evaluations,

large language models mt-eval multi-turn conversations interaction patterns performance degradation

发现论文，激发创造

BotChat: 评估 LLMs 在进行多轮对话方面的能力

利用 GPT-4 对人类风格的多轮对话进行评估，发现大语言模型在生成多轮对话方面具有出色的质量，明显优于其他模型。

Oct, 2023

MT-Bench-101：用于多轮对话评估大型语言模型的细粒度基准测试

通过对真实的多轮对话数据的详细分析，在多轮对话方面构建了一个包含 1388 个多轮对话中 4208 个轮次的三层次能力分类系统，并评估了 21 个流行的大型语言模型在多任务评估基准 MT-Bench-101 上的能力以及对话中的性能差异。进一步的分析表明，无论是使用常见的对齐技术还是特定于聊天的设计，都没有明显改善大型语言模型的多轮对话能力。广泛的案例研究表明，我们设计的任务能够准确评估相应的多轮对话能力。

Feb, 2024

评估指标在 GPT-4 时代：可靠评估大型序列到序列任务上的语言模型

通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Oct, 2023

分析多语言 LLM 在多轮指令跟踪中的能力：阿拉伯语的案例研究

在小众语言如阿拉伯语中，我们详细研究了开放式大型语言模型在回应多轮指令方面的能力，并利用自定义的阿拉伯文翻译的 MT-Bench 基准套件和 GPT-4 作为评估工具，对英文和阿拉伯文进行了综合评估和比较，结果表明在不同任务类别（逻辑和文学）以英文或阿拉伯文指令时，模型的回答会有所差异。我们发现，使用多语言和多轮次数据集进行微调的基础模型与从头开始使用多语言数据训练的模型具有竞争力。最后，我们假设一组小型、开放式大型语言模型在基准测试中具有与专有模型相当的性能。

Oct, 2023

MINT: 使用工具和语言反馈评估多轮交互中的 LLMs

通过使用工具和自然语言反馈，MINT 基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力，并从 20 个开源和闭源的语言模型分析中发现，在工具交互和自然语言反馈的情况下，LLMs 的性能有所提升。

Sep, 2023

MATEval：用于推进开放式文本评估的多智能体讨论框架

通过 MATEval 框架使用生成型大型语言模型进行多智能体文本评估，针对评估开放性文本中的不确定性和不稳定性问题进行改进，并取得了与人类评估最高的相关性，大幅提高了工业场景中的文本评估和模型迭代效率。

Mar, 2024

CT-Eval: 大型语言模型中中国文本到表格性能的基准评估

通过构建一个中文文本到表格的数据集 CT-Eval，并利用该数据集评估开源和闭源的大型语言模型 (包括 GPT-4) 的性能，研究结果显示零翻译大型语言模型仍然与人类判断存在明显的性能差距，但经过微调后，开源的大型语言模型的文本到表格能力可以显著提高，超过了 GPT-4 很大的程度。这表明 CT-Eval 不仅可以帮助研究人员评估和快速了解现有大型语言模型的中文文本到表格能力，还可作为极大提升大型语言模型文本到表格性能的宝贵资源。

May, 2024

使用大型语言模型评估聊天的三种方法

本文通过三种不同的方法，基于大型语言模型（LLMs）对于 ChatGPT 响应的逐轮质量进行预测，并使用动态少量样本来改善基准，并分析了其他两种方法的性能并提出未来研究的改进。研究表明，Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距，但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。

Aug, 2023

METAL：面向多语言元评估

我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架，并创建了一个用于评估 LLM-based 评估器的精心策划的数据集，该数据集覆盖 10 种语言，包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能，结果表明，基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好，而 GPT-3.5-Turbo 的表现不佳。此外，我们对 LLM-based 评估器提供的推理进行分析，发现它往往与人类评判所提供的推理不一致。

Apr, 2024

大型语言模型作为自动对话评估器的有效性综合分析

自动对话评估的研究中，大型语言模型、神经度量指标以及元评估数据集的应用，以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。

Dec, 2023