GameEval：对话游戏下 LLM 的评估

Aug, 2023

GameEval: Evaluating LLMs on Conversational Games

Dan Qiao, Chenfei Wu, Yaobo Liang, Juntao Li, Nan Duan

TL;DR通过目标驱动的对话游戏，GameEval 提出了一种新的评估大型语言模型的方法，能够全面评估模型的性能，展示其解决复杂问题的综合能力。

Abstract

The rapid advancements in large language models (LLMs) have presented challenges in evaluating those models. Existing evaluation methods are either reference-based or preference based, which inevitably need human

large language models evaluation methods gameeval goal-driven conversational games model performance

发现论文，激发创造

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

本文探索了一种方法，即在特定的游戏场景中测试大型语言模型的表现，以此来深入了解它们是否能像环境理解代理一样进行操作，涵盖了五个交互设置，并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则，并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。

May, 2023

ChatEval：基于多智能体辩论的 LLM 评估器改进

通过多代理辩论框架，构建了一个名为 ChatEval 的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量，分析结果表明 ChatEval 不仅仅提供文本评分，还提供了模拟人类评估过程以进行可靠评估。

Aug, 2023

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了 LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

在大语言模型时代重新思考对话式推荐系统的评估

本文介绍了利用大型语言模型进行对话推荐的研究，并提出了一种基于 LLM 的用户模拟器的交互式评估方法 iEvaLM，从而改善了现有的评估协议。在两个公共数据集上的实验表明，ChatGPT 展现出较大的优势，并强调解释性的评估。此研究有助于更深入地理解 LLMs 在 CRSs 中的潜力，并为未来的研究提供一个更灵活、易于使用的评估框架。

May, 2023

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Jan, 2024

大型语言模型作为自动对话评估器的有效性综合分析

自动对话评估的研究中，大型语言模型、神经度量指标以及元评估数据集的应用，以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。

Dec, 2023

评估语言模型代理的方法与谈判

通过协商游戏来共同评估语言模型的性能和对齐情况，发现开源模型目前无法完成这些任务，合作协商游戏具有挑战性，最强大的模型并非总是 “赢家”。

Jan, 2024

大规模语言模型在自动评估中的深入研究

使用大型语言模型（LLMs）评估文本质量近来变得流行。本文分析了 LLM 评估（Chiang 和 Lee，2023）和 G-Eval（Liu et al.，2023），讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链（CoT）并不总是使 G-Eval 与人类评分更加一致。我们还表明，强制 LLM 仅输出数字评分，如 G-Eval 中所示，是不理想的。最后，我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性，并在两个元评估数据集上推动了最新技术的相关性。

Oct, 2023

关于开放领域对话评估的 LLMs 基准测试

大型语言模型已在自然语言处理各个任务中显示出卓越的能力。然而，在自动开放领域对话评估方面，现有的评估基准往往依赖于过时的数据集，评估流畅度和相关性等方面，无法充分捕捉现代聊天机器人模型的能力和限制。本论文对当前的评估基准进行了批判性研究，强调使用旧的响应生成器和质量方面未能准确反映现代聊天机器人的能力。对近期 LLM 生成的数据集 (SODA) 进行的小型注释实验揭示了 GPT-4 等 LLM 评估者在检测当前 LLM 聊天机器人生成的对话中的实际问题方面存在困难。

Jul, 2024