利用词语猜测游戏评估大型语言模型的智能

Oct, 2023

利用词语猜测游戏评估大型语言模型的智能

Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models

Tian Liang, Zhiwei He, Jen-tes Huang, Wenxuan Wang, Wenxiang Jiao...

TL;DR通过使用单词猜谜游戏评估 LLM 的智能性能，本研究提出了 DEEP 和 SpyGame 两个评估框架，能够有效评估各种 LLM 的能力，并捕捉其适应新情境和战略性沟通的能力。

Abstract

The automatic evaluation of LLM-based agent intelligence is critical in developing advanced llm-based agents. Although considerable effort has been devoted to developing human-annotated evaluation datasets, such

llm-based agents automatic evaluation word guessing game deep spygame

发现论文，激发创造

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

基于大型语言模型的游戏智能代理调查

利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力，以推进人工智能 (AGI) 的发展，并提供了 LLM 基础的游戏智能体的综述，包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分，调研了六种游戏类型的现有代表性 LLM 基础游戏智能体，并展望了未来的研究和发展方向。

Apr, 2024

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

本文探索了一种方法，即在特定的游戏场景中测试大型语言模型的表现，以此来深入了解它们是否能像环境理解代理一样进行操作，涵盖了五个交互设置，并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则，并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。

May, 2023

GameEval：对话游戏下 LLM 的评估

通过目标驱动的对话游戏，GameEval 提出了一种新的评估大型语言模型的方法，能够全面评估模型的性能，展示其解决复杂问题的综合能力。

Aug, 2023

关于 LLMs 决策能力的探究：在多智能体环境中评估 LLMs 的游戏能力

通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力，研究发现 GPT-3.5 在鲁棒性方面表现出色，但其概括能力相对有限，通过 Chain-of-Thought 等方法可以提高其性能；此外，评估发现 GPT-4 在 GAMA-Bench 上表现最好，得分为 72.5，而 GPT-3.5 的不断更新也标志着模型智能的显着提高。

Mar, 2024

自主对抗性语言游戏增强 LLM 推理能力

在一个叫做 Adversarial Taboo 的对抗性语言游戏中，我们探索了大型语言模型（LLMs）的自我训练过程。通过强化学习和自我博弈，我们观察到 LLMs 在广泛的推理基准上表现出统一的提升，并且通过迭代采用自我博弈过程可以不断提升 LLM 的推理能力。

Apr, 2024

实体演绎竞技场：探索 LLM 的对话推理和规划能力的游乐场

大语言模型在回答清楚的问题方面非常有效，但面对模糊查询时会表现不可预测且产生错误的输出，因此需要开发能够提出澄清问题来解决模糊性的智能代理。本文提供了一个评估框架，通过问法官一系列问题来推断一个未知的实体并评估语言模型的会话推理和规划能力，并对不同的语言模型进行系统评估。结果发现，像 GPT-4 这样的强大语言模型在这个任务上远远超过人类玩家。同时我们还使用行为克隆（BC）来研究较弱模型是否能够模仿强模型并在只使用强模型的演示数据或领域的情况下进行泛化。最后，我们建议使用强化学习来通过游戏过程来提高 Vicuna 模型的推理和规划能力，从而显著提高性能。希望这个问题能为如何训练自主代理在模糊环境中更智能地行为提供见解。

Oct, 2023

将你的资金投到你的口中：在拍卖竞技场中评估 LLM 代理的战略规划与执行

大型语言模型可以在复杂环境中模拟人类行为，在竞争环境中展示了高级推理技能，需要评估环境来探测战略推理、竞争动态场景中的长期规划，介绍了 AucArena 作为一个评估 LLMs 的新型模拟环境，在竞拍中证明了通过简单的提示，LLMs 确实展示了参与竞拍所需的许多技能，还发现对 LLM 代理进行自适应和观察过去竞拍策略的明确鼓励，可以提高这些技能的准确性，这些结果表明使用 LLM 代理模拟复杂社交动态的潜力，尤其在竞争环境中，但我们也观察到个体 LLMs 的能力存在相当大的变异性，值得注意的是，即使是最先进的模型（GPT-4）有时也会被启发式基准线和人类代理超越，这突显了 LLM 代理设计中进一步提高和我们的模拟环境在测试和改进代理体系结构中的重要作用。

Oct, 2023

解密数字侦探：了解多智能体谜题游戏中的 LLM 行为与能力

通过应用大型语言模型（LLMs）在中国的谋杀迷题角色扮演游戏 “Jubensha” 中，我们提出了第一个专为 Jubensha 设计的中文数据集，旨在促进该复杂叙事环境下 AI 智能体的发展。本研究还介绍了一种基于 LLMs 的独特多智能体交互框架，使得这些 AI 智能体能够自主参与游戏，增强 Jubensha 游戏的动态性。为了评估这些 AI 智能体的表现，我们开发了专门针对他们对案件信息和推理能力的精研方法。此外，我们还融合了最新的上下文学习技术，以改善智能体在信息收集、凶手检测和逻辑推理等关键方面的表现。实验结果验证了我们提出方法的有效性。本研究旨在为研究者在该领域提供理解 LLM 能力的新视角，并建立一个评估基于大型语言模型的智能体的新基准。

Dec, 2023