clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

May, 2023

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

clembench: Using Game Play to Evaluate Chat-Optimized Language Models as Conversational Agents

Kranti Chalamalasetti, Jana Götze, Sherzod Hakimov, Brielen Madureira, Philipp Sadler...

TL;DR本文探索了一种方法，即在特定的游戏场景中测试大型语言模型的表现，以此来深入了解它们是否能像环境理解代理一样进行操作，涵盖了五个交互设置，并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则，并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。

Abstract

Recent work has proposed a methodology for the systematic evaluation of "situated language understanding agents"-agents that operate in rich linguistic and non-linguistic contexts-through testing them in carefully constructed interactive settings. Other recent work has argued that

situated language understanding agents large language models game-like settings interaction settings diagnostic value

发现论文，激发创造

clembench-2024: 作为多动作代理的挑战性、动态、互补、多语言基准测试和底层灵活框架

利用大型语言模型自我对弈进行对话游戏的研究，旨在探索其普适性、评估模型的性能，并研究提示语言对模型表现的影响。该研究为构建应用交互系统的模型选择提供了基础，或最终建立模型和模拟评估器的闭环开发环境。

May, 2024

GameEval：对话游戏下 LLM 的评估

通过目标驱动的对话游戏，GameEval 提出了一种新的评估大型语言模型的方法，能够全面评估模型的性能，展示其解决复杂问题的综合能力。

Aug, 2023

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

评估语言模型代理的方法与谈判

通过协商游戏来共同评估语言模型的性能和对齐情况，发现开源模型目前无法完成这些任务，合作协商游戏具有挑战性，最强大的模型并非总是 “赢家”。

Jan, 2024

基于大型语言模型的游戏智能代理调查

利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力，以推进人工智能 (AGI) 的发展，并提供了 LLM 基础的游戏智能体的综述，包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分，调研了六种游戏类型的现有代表性 LLM 基础游戏智能体，并展望了未来的研究和发展方向。

Apr, 2024

MindAgent：新兴游戏互动

我们提出了一种新型基础设施，名为 MindAgent，用于评估游戏交互中的规划和协调能力，并引入了新的游戏场景和相关基准，以评估多智能体协作效率。我们使用新的自动度量 CoS 进行全面评估。我们希望我们对大型语言语料库学习的 LLMs 以及用于通用调度和协调的新基础设施的发现能够揭示如何获取这些技能的一些见解。

Sep, 2023

在大语言模型时代重新思考对话式推荐系统的评估

本文介绍了利用大型语言模型进行对话推荐的研究，并提出了一种基于 LLM 的用户模拟器的交互式评估方法 iEvaLM，从而改善了现有的评估协议。在两个公共数据集上的实验表明，ChatGPT 展现出较大的优势，并强调解释性的评估。此研究有助于更深入地理解 LLMs 在 CRSs 中的潜力，并为未来的研究提供一个更灵活、易于使用的评估框架。

May, 2023

AgentSims：用于大型语言模型评估的开放源码沙盒

使用 AgentSims 构建任务评估方法，解决现有评估方法的局限性，并提供易于使用的基础设施，供研究人员测试大语言模型的能力。

Aug, 2023

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023