利用词语猜测游戏评估大型语言模型的智能
这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架,通过游戏和博弈论场景来创建不同的测试环境,并利用概率图模型方法增强模型的导航能力,最终量化评估了七种不同大型语言模型的能力,发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距,同时证实了概率图模型增强了所有模型的能力,平均提高了 50%。
Nov, 2023
利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力,以推进人工智能 (AGI) 的发展,并提供了 LLM 基础的游戏智能体的综述,包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分,调研了六种游戏类型的现有代表性 LLM 基础游戏智能体,并展望了未来的研究和发展方向。
Apr, 2024
本文探索了一种方法,即在特定的游戏场景中测试大型语言模型的表现,以此来深入了解它们是否能像环境理解代理一样进行操作,涵盖了五个交互设置,并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则,并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。
May, 2023
通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力,研究发现 GPT-3.5 在鲁棒性方面表现出色,但其概括能力相对有限,通过 Chain-of-Thought 等方法可以提高其性能;此外,评估发现 GPT-4 在 GAMA-Bench 上表现最好,得分为 72.5,而 GPT-3.5 的不断更新也标志着模型智能的显着提高。
Mar, 2024
在一个叫做 Adversarial Taboo 的对抗性语言游戏中,我们探索了大型语言模型(LLMs)的自我训练过程。通过强化学习和自我博弈,我们观察到 LLMs 在广泛的推理基准上表现出统一的提升,并且通过迭代采用自我博弈过程可以不断提升 LLM 的推理能力。
Apr, 2024
大语言模型在回答清楚的问题方面非常有效,但面对模糊查询时会表现不可预测且产生错误的输出,因此需要开发能够提出澄清问题来解决模糊性的智能代理。本文提供了一个评估框架,通过问法官一系列问题来推断一个未知的实体并评估语言模型的会话推理和规划能力,并对不同的语言模型进行系统评估。结果发现,像 GPT-4 这样的强大语言模型在这个任务上远远超过人类玩家。同时我们还使用行为克隆(BC)来研究较弱模型是否能够模仿强模型并在只使用强模型的演示数据或领域的情况下进行泛化。最后,我们建议使用强化学习来通过游戏过程来提高 Vicuna 模型的推理和规划能力,从而显著提高性能。希望这个问题能为如何训练自主代理在模糊环境中更智能地行为提供见解。
Oct, 2023
大型语言模型可以在复杂环境中模拟人类行为,在竞争环境中展示了高级推理技能,需要评估环境来探测战略推理、竞争动态场景中的长期规划,介绍了 AucArena 作为一个评估 LLMs 的新型模拟环境,在竞拍中证明了通过简单的提示,LLMs 确实展示了参与竞拍所需的许多技能,还发现对 LLM 代理进行自适应和观察过去竞拍策略的明确鼓励,可以提高这些技能的准确性,这些结果表明使用 LLM 代理模拟复杂社交动态的潜力,尤其在竞争环境中,但我们也观察到个体 LLMs 的能力存在相当大的变异性,值得注意的是,即使是最先进的模型(GPT-4)有时也会被启发式基准线和人类代理超越,这突显了 LLM 代理设计中进一步提高和我们的模拟环境在测试和改进代理体系结构中的重要作用。
Oct, 2023
通过应用大型语言模型(LLMs)在中国的谋杀迷题角色扮演游戏 “Jubensha” 中,我们提出了第一个专为 Jubensha 设计的中文数据集,旨在促进该复杂叙事环境下 AI 智能体的发展。本研究还介绍了一种基于 LLMs 的独特多智能体交互框架,使得这些 AI 智能体能够自主参与游戏,增强 Jubensha 游戏的动态性。为了评估这些 AI 智能体的表现,我们开发了专门针对他们对案件信息和推理能力的精研方法。此外,我们还融合了最新的上下文学习技术,以改善智能体在信息收集、凶手检测和逻辑推理等关键方面的表现。实验结果验证了我们提出方法的有效性。本研究旨在为研究者在该领域提供理解 LLM 能力的新视角,并建立一个评估基于大型语言模型的智能体的新基准。
Dec, 2023